Back to datasets
Dataset assetOpen Source CommunityNatural Language ProcessingDialogue Systems
allenai/WildChat
WildChat是一个包含65万条人类用户与ChatGPT之间对话的数据集。该数据集通过向在线用户免费提供OpenAI的GPT-3.5和GPT-4访问权限收集而成。数据集涵盖了多种用户与聊天机器人的交互场景,如模糊的用户请求、代码转换、话题转换、政治讨论等。WildChat既可作为指令微调的数据集,也可作为研究用户行为的宝贵资源。需要注意的是,该数据集包含有毒的用户输入和ChatGPT的响应,并提供了一个无毒的子集。数据集支持多语言,包含66种语言,并且已经过脱敏处理。
Source
hugging_face
Created
Nov 28, 2025
Updated
Jul 19, 2024
Signals
320 views
Availability
Linked source ready
Overview
Dataset description and usage context
WildChat 数据集概述
数据集描述
- 数据集名称: WildChat
- 数据集大小: 650K 对话
- 语言: 多语言(66种语言)
- 数据来源: 用户与ChatGPT的交互
- 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
- 数据集用途: 指令微调、用户行为研究
- 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
- 数据集版本: 包含有毒和非有毒子集
数据字段
- conversation_id: 每个对话的唯一ID(字符串)
- model: 使用的OpenAI模型(字符串)
- timestamp: 对话中最后一轮的时间戳(UTC时间)
- conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
- turn: 对话轮数(整数)
- language: 对话的主要语言(字符串)
- openai_moderation: OpenAI内容审核结果列表
- detoxify_moderation: Detoxify内容审核结果列表
- toxic: 对话是否包含任何被认为有毒的发言(布尔值)
- redacted: 对话是否包含任何被匿名化的发言(布尔值)
数据集分割
- train: 包含622,024个样本,总大小为3.72GB
数据集版本更新
- 2024-06-26: 许可证更新为ODC-BY
引用信息
@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }
Need downstream help?
Pair the dataset with AI analysis and content workflows.
Once the source passes your review, move straight into summarization, transformation, report drafting, or presentation generation with the JuheAI toolchain.