FineWeb 2
FineWeb 2是受欢迎的FineWeb数据集的第二版,为超过1000种语言提供高质量的预训练数据。该数据集经过多语言设置的复杂处理管道,包括语言识别、去重和过滤等步骤。
Description
FineWeb 2 数据集概述
数据集简介
FineWeb 2 是 FineWeb 数据集的第二版,提供了高质量的预训练数据,支持超过 1000 种语言。
数据处理流程
语言识别
- 使用 GlotLID 进行语言识别,覆盖 2000 多种语言,并识别文档使用的脚本。
- 为每种语言定义了不同的最小语言分类器置信度分数以保留文档。
去重
- 数据按语言全局去重,而非按 CommonCrawl 快照去重。
- 保留文档的元数据中保存了去重集群的大小 (
minhash_cluster_size),允许根据集群大小进行数据重构。
数据过滤
- 保留了 FineWeb 的原始过滤器集,未针对个别语言创建新过滤器。
- 对英语过滤器进行了广泛调整,以适应所有支持的语言。
- 禁用了部分过滤器,如
short_line_thr和char_dup_ratio从 0.01 调整为 0.1。
PII 匿名化和修复
- 保留了 PII 移除功能,对电子邮件和 IP 地址进行匿名化。
- 使用 FTFY 修复编码问题。
- 添加代码修复 trafilatura 创建的与表格相关的工件。
实验与评估
- 每个管道步骤都经过精心测试,使用 FineTasks 评估套件进行评估。
- 提供了评估和训练代码,确保透明度。
其他
词/句子分词
- 开发了一种基于语言家族自动分配相似分词器的方法。
参考数据集
- 提供了用于下载和处理参考数据集的代码。
工具版本
- 使用 Datatrove、LightEval-Fork (new-multi-lang-branch) 和 Nanotron 等工具。
许可证
- 数据集保留了与原始 FineWeb 相同的许可证,即 Open Data Commons License Attribution family (ODC-By)。
- 代码库中的代码使用 Apache 2.0 许可证。
引用
bibtex @software{penedo2024fineweb-2, author = {Penedo, Guilherme and Kydlíček, Hynek and Sabolčec, Vinko and Messmer, Bettina and Foroutan, Negar and Jaggi, Martin and von Werra, Leandro and Wolf, Thomas}, title = {FineWeb2: A sparkling update with 1000s of languages}, month = dec, year = 2024, doi = { }, url = {https://huggingface.co/datasets/HuggingFaceFW/fineweb-2} }
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Please login to view download links and access full dataset details.
Topics
Source
Organization: github
Created: 12/6/2024
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.