High Quality Data

Dataset Hub

Explore high-quality datasets for your AI and machine learning projects.

Sort:

Browse by Category

VideoRetrieval

The dataset includes three configurations: corpus, default, and queries. The corpus configuration contains document IDs, text, and titles, split into a dev partition with 100,930 samples and a total size of 8,580,491 bytes. The default configuration contains query IDs, document IDs, and scores, also in a dev split with 1,000 samples and 27,968 bytes. The queries configuration contains query IDs and text, in a dev split with 1,000 samples and 34,156 bytes.

huggingface

View Details