Dataset assetOpen Source CommunityMachine TranslationLanguage Identification

qgyd2021/language_identification

该数据集包含了多个子数据集，主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言，包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库（MARC）、跨语言句子理解数据集（XNLI）、北欧语言识别数据集（nordic_langid）、专利摘要平行语料库（ParaPat）等。这些数据集广泛应用于自然语言处理领域，特别是多语言文本分类、语种识别和机器翻译任务。

Source

hugging_face

Created

Nov 28, 2025

Updated

Apr 26, 2024

Signals

228 views

Availability

Linked source ready

Overview

Dataset description and usage context

数据集概述

多语言语料

amazon_reviews_multi

原始数据/项目地址: Multilingual Amazon Reviews Corpus; 2010.02573
样本个数: TRAIN: 1191160, VALID: 29665, TEST: 29685
原始数据描述: 多语言亚马逊评论语料库 (MARC)，包含英语、日语、德语、法语、西班牙语和中文评论。
替代数据下载地址: amazon_reviews_multi

xnli

原始数据/项目地址: XNLI; D18-1269.pdf
样本个数: TRAIN: 7702055, VALID: 49750, TEST: 100129
原始数据描述: 促进跨语言句子理解研究的数据集。
替代数据下载地址: xnli

stsb_multi_mt

原始数据/项目地址: SemEval-2017 Task 1
样本个数: TRAIN: 104117, VALID: 25943, TEST: 22457
原始数据描述: 可用语言有：de、en、es、fr、it、nl、pl、pt、ru、zh。
替代数据下载地址: stsb_multi_mt

语种识别

scandi_langid

样本个数: TRAIN: 239618, TEST: 59840
替代数据下载地址: kardosdrur/scandi-langid

nordic_langid

原始数据/项目地址: Discriminating Between Similar Nordic Languages
样本个数: TRAIN: 226159, TEST: 10700
原始数据描述: 重点关注六种北欧语言之间的区别。
替代数据下载地址: strombergnlp/nordic_langid

mike0307

原始数据/项目地址: Mike0307/language-detection
样本个数: TRAIN: 33095, VALID: 4040, TEST: 4048

nbnn

原始数据/项目地址: oai-nb-no-sbr-80
样本个数: TRAIN: 1556212, VALID: 1957, TEST: 1944
原始数据描述: 包含挪威电报局 (NTB) 的新闻文本从博克马尔语翻译成新挪威语的内容。
替代数据下载地址: NbAiLab/nbnn_language_detection

机器翻译

bucc2018

原始数据/项目地址: bucc2018
样本个数: TRAIN: 2173318, TEST: 2125879
原始数据描述: 共享任务：识别可比语料库中的平行句子，语言：de, en, fr, ru, zh。

iwslt2017

原始数据/项目地址: 2017.iwslt-1.1.pdf
样本个数: TRAIN: 2482649, VALID: 11480, TEST: 72470
原始数据描述: IWSLT 2017 多语言任务解决了文本翻译问题，涵盖英语、德语、荷兰语、意大利语和罗马尼亚语等所有方向。
替代数据下载地址: iwslt2017

bsd_ja_en

原始数据/项目地址: 2008.01940v1
样本个数: TRAIN: 35755, VALID: 3636, TEST: 3702
原始数据描述: 提高会话文本的机器翻译质量，引入新构建的日语-英语商务会话平行语料库。
替代数据下载地址: bsd_ja_en

autshumato

样本个数: TRAIN: 652824
原始数据描述: Autshumato 项目的目标之一是开发三种南非语言对的机器翻译系统。
替代数据下载地址: autshumato

chr_en

原始数据/项目地址: 2010.04791
原始数据描述: ChrEn 是切罗基语-英语并行数据集，用于促进切罗基语和英语之间的机器翻译研究。
替代数据下载地址: chr_en

cmu_hinglish_dog

原始数据/项目地址: CMU_DoG; 1809.07358
样本个数: TRAIN: 13146, VALID: 1645, TEST: 1616
原始数据描述: 印度英语（印地语-英语之间的代码混合）文本对话及其相应的英语版本的集合。
替代数据下载地址: cmu_hinglish_dog

europa_eac_tm

原始数据/项目地址: EAC-Translation Memory
样本个数: TRAIN: 38054
原始数据描述: 从英语到多达 25 种语言的手动翻译的语料库。
替代数据下载地址: europa_eac_tm

europa_ecdc_tm

原始数据/项目地址: ECDC-Translation Memory
样本个数: TRAIN: 58968
原始数据描述: 25 种语言的句子及其专业翻译的集合。
替代数据下载地址: europa_ecdc_tm

flores

原始数据/项目地址: 1902.01382
原始数据描述: 低资源机器翻译的评估数据集：尼泊尔语-英语和僧伽罗语-英语。
替代数据下载地址: flores

giga_fren

替代数据下载地址: giga_fren

hind_encorp

原始数据/项目地址: HindEnCorp
样本个数: TRAIN: 445071
原始数据描述: 并行文本（句子对齐）来自以下来源：Tides，包含主要取自新闻文章的 50K 句对。
替代数据下载地址: hind_encorp

hrenwac_para

样本个数: TRAIN: 191946
原始数据描述: hrenWaC 语料库版本 2.0 由从克罗地亚 .hr 顶级域爬取的并行克罗地亚语-英语文本组成。
替代数据下载地址: hrenwac_para

id_panl_bppt

样本个数: TRAIN: 47916
原始数据描述: BPPT（印度尼西亚技术评估和应用机构）为 PAN 本地化项目创建的多域翻译系统并行文本语料库。
替代数据下载地址: id_panl_bppt

igbo

原始数据/项目地址: Igbo-English Machine Translation
原始数据描述: 为伊博语（尼日利亚三种主要语言之一）构建标准机器翻译基准数据集。
替代数据下载地址: igbo_english_machine_translation

menyo20k_mt

原始数据/项目地址: menyo20k_mt
样本个数: TRAIN: 19899, VALID: 6655, TEST: 13148
原始数据描述: MENYO-20k 是一个多域并行数据集，文本来自新闻文章、ted 演讲、电影文字记录、广播文字记录、科技文本等。
替代数据下载地址: menyo20k_mt

pib

原始数据/项目地址: CVIT-PIB
原始数据描述: 11 种印度语言的大规模句子对齐语料库。
替代数据下载地址: pib

poleval2019_mt

原始数据描述: PolEval 是一项受 SemEval 启发的波兰语自然语言处理工具评估活动。
替代数据下载地址: poleval2019_mt

wmt19

原始数据/项目地址: statmt.org
原始数据描述: 训练数据主要来源是Europarl 语料库、 UN 语料库、新闻评论语料库和 ParaCrawl语料库。
替代数据下载地址: wmt/wmt19

ro_sts_parallel

样本个数: TRAIN: 21226, VALID: 5470, TEST: 4693
原始数据描述: 通过将 STS 英语数据集翻译成罗马尼亚语而获得的并行罗马尼亚语-英语数据集。
替代数据下载地址: ro_sts_parallel

机器翻译

para_pat_cs_en

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 156028
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_de_en

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 3065565
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_de_fr

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 1243643
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_el_en

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 20234
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_en_es

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 1147278
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_en_hu

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 84824
**

Need downstream help?

Pair the dataset with AI analysis and content workflows.

Once the source passes your review, move straight into summarization, transformation, report drafting, or presentation generation with the JuheAI toolchain.

Explore AI studio