JUHE API Marketplace
DATASET
Open Source Community

qgyd2021/language_identification

该数据集包含了多个子数据集,主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言,包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库(MARC)、跨语言句子理解数据集(XNLI)、北欧语言识别数据集(nordic_langid)、专利摘要平行语料库(ParaPat)等。这些数据集广泛应用于自然语言处理领域,特别是多语言文本分类、语种识别和机器翻译任务。

Updated 4/26/2024
hugging_face

Description

数据集概述

多语言语料

amazon_reviews_multi

xnli

  • 原始数据/项目地址: XNLI; D18-1269.pdf
  • 样本个数: TRAIN: 7702055, VALID: 49750, TEST: 100129
  • 原始数据描述: 促进跨语言句子理解研究的数据集。
  • 替代数据下载地址: xnli

stsb_multi_mt

  • 原始数据/项目地址: SemEval-2017 Task 1
  • 样本个数: TRAIN: 104117, VALID: 25943, TEST: 22457
  • 原始数据描述: 可用语言有:de、en、es、fr、it、nl、pl、pt、ru、zh。
  • 替代数据下载地址: stsb_multi_mt

语种识别

scandi_langid

nordic_langid

mike0307

nbnn

  • 原始数据/项目地址: oai-nb-no-sbr-80
  • 样本个数: TRAIN: 1556212, VALID: 1957, TEST: 1944
  • 原始数据描述: 包含挪威电报局 (NTB) 的新闻文本从博克马尔语翻译成新挪威语的内容。
  • 替代数据下载地址: NbAiLab/nbnn_language_detection

机器翻译

bucc2018

  • 原始数据/项目地址: bucc2018
  • 样本个数: TRAIN: 2173318, TEST: 2125879
  • 原始数据描述: 共享任务:识别可比语料库中的平行句子,语言:de, en, fr, ru, zh。

iwslt2017

  • 原始数据/项目地址: 2017.iwslt-1.1.pdf
  • 样本个数: TRAIN: 2482649, VALID: 11480, TEST: 72470
  • 原始数据描述: IWSLT 2017 多语言任务解决了文本翻译问题,涵盖英语、德语、荷兰语、意大利语和罗马尼亚语等所有方向。
  • 替代数据下载地址: iwslt2017

bsd_ja_en

  • 原始数据/项目地址: 2008.01940v1
  • 样本个数: TRAIN: 35755, VALID: 3636, TEST: 3702
  • 原始数据描述: 提高会话文本的机器翻译质量,引入新构建的日语-英语商务会话平行语料库。
  • 替代数据下载地址: bsd_ja_en

autshumato

  • 样本个数: TRAIN: 652824
  • 原始数据描述: Autshumato 项目的目标之一是开发三种南非语言对的机器翻译系统。
  • 替代数据下载地址: autshumato

chr_en

  • 原始数据/项目地址: 2010.04791
  • 原始数据描述: ChrEn 是切罗基语-英语并行数据集,用于促进切罗基语和英语之间的机器翻译研究。
  • 替代数据下载地址: chr_en

cmu_hinglish_dog

  • 原始数据/项目地址: CMU_DoG; 1809.07358
  • 样本个数: TRAIN: 13146, VALID: 1645, TEST: 1616
  • 原始数据描述: 印度英语(印地语-英语之间的代码混合)文本对话及其相应的英语版本的集合。
  • 替代数据下载地址: cmu_hinglish_dog

europa_eac_tm

  • 原始数据/项目地址: EAC-Translation Memory
  • 样本个数: TRAIN: 38054
  • 原始数据描述: 从英语到多达 25 种语言的手动翻译的语料库。
  • 替代数据下载地址: europa_eac_tm

europa_ecdc_tm

  • 原始数据/项目地址: ECDC-Translation Memory
  • 样本个数: TRAIN: 58968
  • 原始数据描述: 25 种语言的句子及其专业翻译的集合。
  • 替代数据下载地址: europa_ecdc_tm

flores

  • 原始数据/项目地址: 1902.01382
  • 原始数据描述: 低资源机器翻译的评估数据集:尼泊尔语-英语和僧伽罗语-英语。
  • 替代数据下载地址: flores

giga_fren

hind_encorp

  • 原始数据/项目地址: HindEnCorp
  • 样本个数: TRAIN: 445071
  • 原始数据描述: 并行文本(句子对齐)来自以下来源:Tides,包含主要取自新闻文章的 50K 句对。
  • 替代数据下载地址: hind_encorp

hrenwac_para

  • 样本个数: TRAIN: 191946
  • 原始数据描述: hrenWaC 语料库版本 2.0 由从克罗地亚 .hr 顶级域爬取的并行克罗地亚语-英语文本组成。
  • 替代数据下载地址: hrenwac_para

id_panl_bppt

  • 样本个数: TRAIN: 47916
  • 原始数据描述: BPPT(印度尼西亚技术评估和应用机构)为 PAN 本地化项目创建的多域翻译系统并行文本语料库。
  • 替代数据下载地址: id_panl_bppt

igbo

menyo20k_mt

  • 原始数据/项目地址: menyo20k_mt
  • 样本个数: TRAIN: 19899, VALID: 6655, TEST: 13148
  • 原始数据描述: MENYO-20k 是一个多域并行数据集,文本来自新闻文章、ted 演讲、电影文字记录、广播文字记录、科技文本等。
  • 替代数据下载地址: menyo20k_mt

pib

  • 原始数据/项目地址: CVIT-PIB
  • 原始数据描述: 11 种印度语言的大规模句子对齐语料库。
  • 替代数据下载地址: pib

poleval2019_mt

  • 原始数据描述: PolEval 是一项受 SemEval 启发的波兰语自然语言处理工具评估活动。
  • 替代数据下载地址: poleval2019_mt

wmt19

  • 原始数据/项目地址: statmt.org
  • 原始数据描述: 训练数据主要来源是Europarl 语料库、 UN 语料库、新闻评论语料库和 ParaCrawl语料库。
  • 替代数据下载地址: wmt/wmt19

ro_sts_parallel

  • 样本个数: TRAIN: 21226, VALID: 5470, TEST: 4693
  • 原始数据描述: 通过将 STS 英语数据集翻译成罗马尼亚语而获得的并行罗马尼亚语-英语数据集。
  • 替代数据下载地址: ro_sts_parallel

机器翻译

para_pat_cs_en

  • 原始数据/项目地址: ParaPat; Homepage
  • 样本个数: TRAIN: 156028
  • 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
  • 替代数据下载地址: para_pat

para_pat_de_en

  • 原始数据/项目地址: ParaPat; Homepage
  • 样本个数: TRAIN: 3065565
  • 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
  • 替代数据下载地址: para_pat

para_pat_de_fr

  • 原始数据/项目地址: ParaPat; Homepage
  • 样本个数: TRAIN: 1243643
  • 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
  • 替代数据下载地址: para_pat

para_pat_el_en

  • 原始数据/项目地址: ParaPat; Homepage
  • 样本个数: TRAIN: 20234
  • 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
  • 替代数据下载地址: para_pat

para_pat_en_es

  • 原始数据/项目地址: ParaPat; Homepage
  • 样本个数: TRAIN: 1147278
  • 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
  • 替代数据下载地址: para_pat

para_pat_en_hu

  • 原始数据/项目地址: ParaPat; Homepage
  • 样本个数: TRAIN: 84824
  • **

AI studio

Generate PPTs instantly with Nano Banana Pro.

Generate PPT Now

Access Dataset

Login to Access

Please login to view download links and access full dataset details.

Topics

Language Identification
Machine Translation

Source

Organization: hugging_face

Created: Unknown

Power Your Data Analysis with Premium AI Models

Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.

Enjoy a free trial and save 20%+ compared to official pricing.