Explore high-quality datasets for your AI and machine learning projects.
该数据集包含了多个子数据集,主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言,包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库(MARC)、跨语言句子理解数据集(XNLI)、北欧语言识别数据集(nordic_langid)、专利摘要平行语料库(ParaPat)等。这些数据集广泛应用于自然语言处理领域,特别是多语言文本分类、语种识别和机器翻译任务。