High Quality Data

Dataset Hub

Explore high-quality datasets for your AI and machine learning projects.

Sort:

Browse by Category

qgyd2021/language_identification

该数据集包含了多个子数据集，主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言，包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库（MARC）、跨语言句子理解数据集（XNLI）、北欧语言识别数据集（nordic_langid）、专利摘要平行语料库（ParaPat）等。这些数据集广泛应用于自然语言处理领域，特别是多语言文本分类、语种识别和机器翻译任务。

hugging_face

View Details