DATASET
Open Source Community
zgcarvalho/oas-test
Observed Antibody Space数据集是一个生物学和蛋白质领域的数据集,包含配对和不配对两种配置。配对配置包含重链和轻链的序列信息,而不配对配置仅包含单一链的序列信息。数据集的大小在10M到100M之间,适用于大规模数据处理。
Updated 9/28/2023
hugging_face
Description
数据集卡片 for Observed Antibody Space
数据集描述
数据集概要
该数据集名为“Observed Antibody Space”,包含两个配置:paired 和 unpaired。数据集大小介于10M到100M之间,采用CC BY 4.0许可。
支持的任务和排行榜
[更多信息需要]
语言
[更多信息需要]
数据集结构
数据实例
[更多信息需要]
数据字段
paired 配置
sequence_heavy: 字符串类型sequence_light: 字符串类型cdr1_heavy: 字符串类型cdr2_heavy: 字符串类型cdr3_heavy: 字符串类型fwr1_heavy: 字符串类型fwr2_heavy: 字符串类型fwr3_heavy: 字符串类型fwr4_heavy: 字符串类型cdr1_light: 字符串类型cdr2_light: 字符串类型cdr3_light: 字符串类型fwr1_light: 字符串类型fwr2_light: 字符串类型fwr3_light: 字符串类型fwr4_light: 字符串类型species: 字符串类型vaccine: 字符串类型disease: 字符串类型
unpaired 配置
sequence: 字符串类型chain: 字符串类型cdr1: 字符串类型cdr2: 字符串类型cdr3: 字符串类型fwr1: 字符串类型fwr2: 字符串类型fwr3: 字符串类型fwr4: 字符串类型species: 字符串类型vaccine: 字符串类型disease: 字符串类型
数据分割
paired 配置
train分割- 字节数: 985822519
- 样本数: 1777462
unpaired 配置
train分割- 字节数: 4671469078
- 样本数: 15925303
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的考虑因素
数据集的社会影响
[更多信息需要]
讨论偏见
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
[更多信息需要]
贡献
[更多信息需要]
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Login to Access
Please login to view download links and access full dataset details.
Topics
Biology
Protein Research
Source
Organization: hugging_face
Created: Unknown
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.