Explore high-quality datasets for your AI and machine learning projects.
悟道(WuDao)数据集是一个用于文本生成任务的大型数据集,包含超过1万亿个token。数据集大小约为125GB(压缩为.parquet格式),对应悟道220G版本。数据集包含多种类别,如科技、经济、娱乐等,共计59100001条数据。使用时需引用原作者信息。