Datasets | JuheAPI

Syoy/birdclef_2023_train

Bird Species Recognition

Audio Classification

The dataset birdclef_2023_train primarily contains bird audio data and associated label information. Its features include audio files, primary labels, secondary labels, type, latitude, longitude, scientific name, common name, author, license, rating, URL, and embedding vectors. The dataset is divided into a training set, which includes 16,941 samples, with a total size of 5,388,534,029.882 bytes and a download size of 5,367,714,895 bytes.

hugging_face

View Details

renumics/esc50

Audio Classification

ESC‑50 is an environmental sound classification dataset comprising 50 distinct sound categories such as animal noises (dog, cat, chicken), natural sounds (rain, sea waves, wind), human sounds (laughter, cough, footstep), and mechanical sounds (helicopter, chainsaw, siren). Features include audio files, labels, and fold information. The training set contains 2,000 samples (≈882 MB). The dataset is released under a Creative Commons Attribution‑NonCommercial license.

hugging_face

View Details

DBD-research-group/BirdSet

Bioacoustics

Audio Classification

BirdSet is a large‑scale audio classification dataset focusing on bird vocalizations. It contains over 6,800 hours of recordings, providing training data for nearly 10,000 classes and over 400 hours of evaluation data across eight strongly labeled evaluation sets. BirdSet serves as a rich resource for audio classification tasks such as multi‑label classification, covariate shift, or self‑supervised learning.

hugging_face

View Details

lowres/sukasuka-anime-vocal-dataset

Anime Character Voice

Audio Classification

--- dataset_info: features: - name: audio dtype: audio - name: label dtype: class_label: names: '0': Almaria '1': Almita '2': Buronny '3': Chtholly '4': Collon '5': EbonCandle '6': Elq '7': Godley '8': Grick '9': Ithea '10': Lakhesh '11': Lillia '12': Limeskin '13': Margomedari '14': Narration '15': Nephren '16': Nopht '17': Nygglatho '18': Pannibal '19': Phyracorlybia '20': Rhantolk '21': SilverClover '22': Suowong '23': SuowongYoung '24': Tiat '25': Willem splits: - name: train num_bytes: 1528660644 num_examples: 3495 download_size: 1465797251 dataset_size: 1528660644 configs: - config_name: default data_files: - split: train path: data/train-* license: other task_categories: - audio-classification language: - ja size_categories: - 1K<n<10K --- this dataset is the parquet version of the dataset that was created by [mio](https://huggingface.co/mio/) original dataset link : https://huggingface.co/datasets/mio/sukasuka-anime-vocal-dataset please make sure to follow and heart react the original author (≧∇≦)ﾉ

hugging_face

View Details

confit/crema-d

Audio Classification

Emotion Recognition

This is an audio classification dataset primarily for emotion classification tasks. The dataset includes training, validation, and test splits; each sample contains an audio file, audio data, an emotion label, and a categorical label. Emotion labels cover six categories: anger, disgust, fear, happiness, neutral, and sadness. The audio sampling rate is 16 kHz. Total download size is about 606 MB; total dataset size is about 608 MB.

hugging_face

View Details

ccmusic-database/music_genre

Music Genre Classification

Audio Classification

The dataset comprises approximately 1,700 music excerpts in .mp3 format, each lasting 270–300 seconds and sampled at 22 kHz. The excerpts are taken from NetEase Cloud Music and are labelled with 16 genre categories. The dataset is divided into a Raw Subset and an Eval Subset, each providing different audio features and annotations. It was created to foster AI research in the music industry and was mainly collected and annotated by students. The dataset is intended for audio‑classification tasks and supports multilingual use.

hugging_face

View Details

Dataset Hub

Browse by Category

Syoy/birdclef_2023_train

renumics/esc50

DBD-research-group/BirdSet

lowres/sukasuka-anime-vocal-dataset

confit/crema-d

ccmusic-database/music_genre