Dataset assetOpen Source CommunityNatural Language ProcessingMultilingual Processing

FineWeb 2

FineWeb 2是受欢迎的FineWeb数据集的第二版，为超过1000种语言提供高质量的预训练数据。该数据集经过多语言设置的复杂处理管道，包括语言识别、去重和过滤等步骤。

Source

github

Created

Dec 6, 2024

Updated

Dec 8, 2024

Signals

137 views

Availability

Linked source ready

Overview

Dataset description and usage context

FineWeb 2 数据集概述

数据集简介

FineWeb 2 是 FineWeb 数据集的第二版，提供了高质量的预训练数据，支持超过 1000 种语言。

数据处理流程

语言识别

使用 GlotLID 进行语言识别，覆盖 2000 多种语言，并识别文档使用的脚本。
为每种语言定义了不同的最小语言分类器置信度分数以保留文档。

去重

数据按语言全局去重，而非按 CommonCrawl 快照去重。
保留文档的元数据中保存了去重集群的大小 (minhash_cluster_size)，允许根据集群大小进行数据重构。

数据过滤

保留了 FineWeb 的原始过滤器集，未针对个别语言创建新过滤器。
对英语过滤器进行了广泛调整，以适应所有支持的语言。
禁用了部分过滤器，如 short_line_thr 和 char_dup_ratio 从 0.01 调整为 0.1。

PII 匿名化和修复

保留了 PII 移除功能，对电子邮件和 IP 地址进行匿名化。
使用 FTFY 修复编码问题。
添加代码修复 trafilatura 创建的与表格相关的工件。

实验与评估

每个管道步骤都经过精心测试，使用 FineTasks 评估套件进行评估。
提供了评估和训练代码，确保透明度。

其他

词/句子分词

开发了一种基于语言家族自动分配相似分词器的方法。

参考数据集

提供了用于下载和处理参考数据集的代码。

工具版本

使用 Datatrove、LightEval-Fork (new-multi-lang-branch) 和 Nanotron 等工具。

许可证

数据集保留了与原始 FineWeb 相同的许可证，即 Open Data Commons License Attribution family (ODC-By)。
代码库中的代码使用 Apache 2.0 许可证。

引用

bibtex @software{penedo2024fineweb-2, author = {Penedo, Guilherme and Kydlíček, Hynek and Sabolčec, Vinko and Messmer, Bettina and Foroutan, Negar and Jaggi, Martin and von Werra, Leandro and Wolf, Thomas}, title = {FineWeb2: A sparkling update with 1000s of languages}, month = dec, year = 2024, doi = { }, url = {https://huggingface.co/datasets/HuggingFaceFW/fineweb-2} }

Need downstream help?

Pair the dataset with AI analysis and content workflows.

Once the source passes your review, move straight into summarization, transformation, report drafting, or presentation generation with the JuheAI toolchain.

Explore AI studio