JUHE API Marketplace
DATASET
Open Source Community

allenai/WildChat

WildChat是一个包含65万条人类用户与ChatGPT之间对话的数据集。该数据集通过向在线用户免费提供OpenAI的GPT-3.5和GPT-4访问权限收集而成。数据集涵盖了多种用户与聊天机器人的交互场景,如模糊的用户请求、代码转换、话题转换、政治讨论等。WildChat既可作为指令微调的数据集,也可作为研究用户行为的宝贵资源。需要注意的是,该数据集包含有毒的用户输入和ChatGPT的响应,并提供了一个无毒的子集。数据集支持多语言,包含66种语言,并且已经过脱敏处理。

Updated 7/19/2024
hugging_face

Description

WildChat 数据集概述

数据集描述

  • 数据集名称: WildChat
  • 数据集大小: 650K 对话
  • 语言: 多语言(66种语言)
  • 数据来源: 用户与ChatGPT的交互
  • 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
  • 数据集用途: 指令微调、用户行为研究
  • 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
  • 数据集版本: 包含有毒和非有毒子集

数据字段

  • conversation_id: 每个对话的唯一ID(字符串)
  • model: 使用的OpenAI模型(字符串)
  • timestamp: 对话中最后一轮的时间戳(UTC时间)
  • conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
  • turn: 对话轮数(整数)
  • language: 对话的主要语言(字符串)
  • openai_moderation: OpenAI内容审核结果列表
  • detoxify_moderation: Detoxify内容审核结果列表
  • toxic: 对话是否包含任何被认为有毒的发言(布尔值)
  • redacted: 对话是否包含任何被匿名化的发言(布尔值)

数据集分割

  • train: 包含622,024个样本,总大小为3.72GB

数据集版本更新

  • 2024-06-26: 许可证更新为ODC-BY

引用信息

@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

AI studio

Generate PPTs instantly with Nano Banana Pro.

Generate PPT Now

Access Dataset

Login to Access

Please login to view download links and access full dataset details.

Topics

Dialogue Systems
Natural Language Processing

Source

Organization: hugging_face

Created: Unknown

Power Your Data Analysis with Premium AI Models

Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.

Enjoy a free trial and save 20%+ compared to official pricing.