allenai/WildChat
WildChat是一个包含65万条人类用户与ChatGPT之间对话的数据集。该数据集通过向在线用户免费提供OpenAI的GPT-3.5和GPT-4访问权限收集而成。数据集涵盖了多种用户与聊天机器人的交互场景,如模糊的用户请求、代码转换、话题转换、政治讨论等。WildChat既可作为指令微调的数据集,也可作为研究用户行为的宝贵资源。需要注意的是,该数据集包含有毒的用户输入和ChatGPT的响应,并提供了一个无毒的子集。数据集支持多语言,包含66种语言,并且已经过脱敏处理。
Description
WildChat 数据集概述
数据集描述
- 数据集名称: WildChat
- 数据集大小: 650K 对话
- 语言: 多语言(66种语言)
- 数据来源: 用户与ChatGPT的交互
- 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
- 数据集用途: 指令微调、用户行为研究
- 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
- 数据集版本: 包含有毒和非有毒子集
数据字段
- conversation_id: 每个对话的唯一ID(字符串)
- model: 使用的OpenAI模型(字符串)
- timestamp: 对话中最后一轮的时间戳(UTC时间)
- conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
- turn: 对话轮数(整数)
- language: 对话的主要语言(字符串)
- openai_moderation: OpenAI内容审核结果列表
- detoxify_moderation: Detoxify内容审核结果列表
- toxic: 对话是否包含任何被认为有毒的发言(布尔值)
- redacted: 对话是否包含任何被匿名化的发言(布尔值)
数据集分割
- train: 包含622,024个样本,总大小为3.72GB
数据集版本更新
- 2024-06-26: 许可证更新为ODC-BY
引用信息
@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Please login to view download links and access full dataset details.
Topics
Source
Organization: hugging_face
Created: Unknown
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.