DATASET
Open Source Community
qgyd2021/language_identification
该数据集包含了多个子数据集,主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言,包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库(MARC)、跨语言句子理解数据集(XNLI)、北欧语言识别数据集(nordic_langid)、专利摘要平行语料库(ParaPat)等。这些数据集广泛应用于自然语言处理领域,特别是多语言文本分类、语种识别和机器翻译任务。
Updated 4/26/2024
hugging_face
Description
数据集概述
多语言语料
amazon_reviews_multi
- 原始数据/项目地址: Multilingual Amazon Reviews Corpus; 2010.02573
- 样本个数: TRAIN: 1191160, VALID: 29665, TEST: 29685
- 原始数据描述: 多语言亚马逊评论语料库 (MARC),包含英语、日语、德语、法语、西班牙语和中文评论。
- 替代数据下载地址: amazon_reviews_multi
xnli
- 原始数据/项目地址: XNLI; D18-1269.pdf
- 样本个数: TRAIN: 7702055, VALID: 49750, TEST: 100129
- 原始数据描述: 促进跨语言句子理解研究的数据集。
- 替代数据下载地址: xnli
stsb_multi_mt
- 原始数据/项目地址: SemEval-2017 Task 1
- 样本个数: TRAIN: 104117, VALID: 25943, TEST: 22457
- 原始数据描述: 可用语言有:de、en、es、fr、it、nl、pl、pt、ru、zh。
- 替代数据下载地址: stsb_multi_mt
语种识别
scandi_langid
- 样本个数: TRAIN: 239618, TEST: 59840
- 替代数据下载地址: kardosdrur/scandi-langid
nordic_langid
- 原始数据/项目地址: Discriminating Between Similar Nordic Languages
- 样本个数: TRAIN: 226159, TEST: 10700
- 原始数据描述: 重点关注六种北欧语言之间的区别。
- 替代数据下载地址: strombergnlp/nordic_langid
mike0307
- 原始数据/项目地址: Mike0307/language-detection
- 样本个数: TRAIN: 33095, VALID: 4040, TEST: 4048
nbnn
- 原始数据/项目地址: oai-nb-no-sbr-80
- 样本个数: TRAIN: 1556212, VALID: 1957, TEST: 1944
- 原始数据描述: 包含挪威电报局 (NTB) 的新闻文本从博克马尔语翻译成新挪威语的内容。
- 替代数据下载地址: NbAiLab/nbnn_language_detection
机器翻译
bucc2018
- 原始数据/项目地址: bucc2018
- 样本个数: TRAIN: 2173318, TEST: 2125879
- 原始数据描述: 共享任务:识别可比语料库中的平行句子,语言:de, en, fr, ru, zh。
iwslt2017
- 原始数据/项目地址: 2017.iwslt-1.1.pdf
- 样本个数: TRAIN: 2482649, VALID: 11480, TEST: 72470
- 原始数据描述: IWSLT 2017 多语言任务解决了文本翻译问题,涵盖英语、德语、荷兰语、意大利语和罗马尼亚语等所有方向。
- 替代数据下载地址: iwslt2017
bsd_ja_en
- 原始数据/项目地址: 2008.01940v1
- 样本个数: TRAIN: 35755, VALID: 3636, TEST: 3702
- 原始数据描述: 提高会话文本的机器翻译质量,引入新构建的日语-英语商务会话平行语料库。
- 替代数据下载地址: bsd_ja_en
autshumato
- 样本个数: TRAIN: 652824
- 原始数据描述: Autshumato 项目的目标之一是开发三种南非语言对的机器翻译系统。
- 替代数据下载地址: autshumato
chr_en
- 原始数据/项目地址: 2010.04791
- 原始数据描述: ChrEn 是切罗基语-英语并行数据集,用于促进切罗基语和英语之间的机器翻译研究。
- 替代数据下载地址: chr_en
cmu_hinglish_dog
- 原始数据/项目地址: CMU_DoG; 1809.07358
- 样本个数: TRAIN: 13146, VALID: 1645, TEST: 1616
- 原始数据描述: 印度英语(印地语-英语之间的代码混合)文本对话及其相应的英语版本的集合。
- 替代数据下载地址: cmu_hinglish_dog
europa_eac_tm
- 原始数据/项目地址: EAC-Translation Memory
- 样本个数: TRAIN: 38054
- 原始数据描述: 从英语到多达 25 种语言的手动翻译的语料库。
- 替代数据下载地址: europa_eac_tm
europa_ecdc_tm
- 原始数据/项目地址: ECDC-Translation Memory
- 样本个数: TRAIN: 58968
- 原始数据描述: 25 种语言的句子及其专业翻译的集合。
- 替代数据下载地址: europa_ecdc_tm
flores
- 原始数据/项目地址: 1902.01382
- 原始数据描述: 低资源机器翻译的评估数据集:尼泊尔语-英语和僧伽罗语-英语。
- 替代数据下载地址: flores
giga_fren
- 替代数据下载地址: giga_fren
hind_encorp
- 原始数据/项目地址: HindEnCorp
- 样本个数: TRAIN: 445071
- 原始数据描述: 并行文本(句子对齐)来自以下来源:Tides,包含主要取自新闻文章的 50K 句对。
- 替代数据下载地址: hind_encorp
hrenwac_para
- 样本个数: TRAIN: 191946
- 原始数据描述: hrenWaC 语料库版本 2.0 由从克罗地亚 .hr 顶级域爬取的并行克罗地亚语-英语文本组成。
- 替代数据下载地址: hrenwac_para
id_panl_bppt
- 样本个数: TRAIN: 47916
- 原始数据描述: BPPT(印度尼西亚技术评估和应用机构)为 PAN 本地化项目创建的多域翻译系统并行文本语料库。
- 替代数据下载地址: id_panl_bppt
igbo
- 原始数据/项目地址: Igbo-English Machine Translation
- 原始数据描述: 为伊博语(尼日利亚三种主要语言之一)构建标准机器翻译基准数据集。
- 替代数据下载地址: igbo_english_machine_translation
menyo20k_mt
- 原始数据/项目地址: menyo20k_mt
- 样本个数: TRAIN: 19899, VALID: 6655, TEST: 13148
- 原始数据描述: MENYO-20k 是一个多域并行数据集,文本来自新闻文章、ted 演讲、电影文字记录、广播文字记录、科技文本等。
- 替代数据下载地址: menyo20k_mt
pib
poleval2019_mt
- 原始数据描述: PolEval 是一项受 SemEval 启发的波兰语自然语言处理工具评估活动。
- 替代数据下载地址: poleval2019_mt
wmt19
- 原始数据/项目地址: statmt.org
- 原始数据描述: 训练数据主要来源是Europarl 语料库、 UN 语料库、新闻评论语料库和 ParaCrawl语料库。
- 替代数据下载地址: wmt/wmt19
ro_sts_parallel
- 样本个数: TRAIN: 21226, VALID: 5470, TEST: 4693
- 原始数据描述: 通过将 STS 英语数据集翻译成罗马尼亚语而获得的并行罗马尼亚语-英语数据集。
- 替代数据下载地址: ro_sts_parallel
机器翻译
para_pat_cs_en
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 156028
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_de_en
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 3065565
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_de_fr
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 1243643
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_el_en
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 20234
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_en_es
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 1147278
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_en_hu
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Login to Access
Please login to view download links and access full dataset details.
Topics
Language Identification
Machine Translation
Source
Organization: hugging_face
Created: Unknown
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.