Back to datasets
Dataset assetOpen Source CommunityBiologyProtein Research
zgcarvalho/oas-test
Observed Antibody Space数据集是一个生物学和蛋白质领域的数据集,包含配对和不配对两种配置。配对配置包含重链和轻链的序列信息,而不配对配置仅包含单一链的序列信息。数据集的大小在10M到100M之间,适用于大规模数据处理。
Source
hugging_face
Created
Nov 28, 2025
Updated
Sep 28, 2023
Signals
88 views
Availability
Linked source ready
Overview
Dataset description and usage context
数据集卡片 for Observed Antibody Space
数据集描述
数据集概要
该数据集名为“Observed Antibody Space”,包含两个配置:paired 和 unpaired。数据集大小介于10M到100M之间,采用CC BY 4.0许可。
支持的任务和排行榜
[更多信息需要]
语言
[更多信息需要]
数据集结构
数据实例
[更多信息需要]
数据字段
paired 配置
sequence_heavy: 字符串类型sequence_light: 字符串类型cdr1_heavy: 字符串类型cdr2_heavy: 字符串类型cdr3_heavy: 字符串类型fwr1_heavy: 字符串类型fwr2_heavy: 字符串类型fwr3_heavy: 字符串类型fwr4_heavy: 字符串类型cdr1_light: 字符串类型cdr2_light: 字符串类型cdr3_light: 字符串类型fwr1_light: 字符串类型fwr2_light: 字符串类型fwr3_light: 字符串类型fwr4_light: 字符串类型species: 字符串类型vaccine: 字符串类型disease: 字符串类型
unpaired 配置
sequence: 字符串类型chain: 字符串类型cdr1: 字符串类型cdr2: 字符串类型cdr3: 字符串类型fwr1: 字符串类型fwr2: 字符串类型fwr3: 字符串类型fwr4: 字符串类型species: 字符串类型vaccine: 字符串类型disease: 字符串类型
数据分割
paired 配置
train分割- 字节数: 985822519
- 样本数: 1777462
unpaired 配置
train分割- 字节数: 4671469078
- 样本数: 15925303
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的考虑因素
数据集的社会影响
[更多信息需要]
讨论偏见
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
[更多信息需要]
贡献
[更多信息需要]
Need downstream help?
Pair the dataset with AI analysis and content workflows.
Once the source passes your review, move straight into summarization, transformation, report drafting, or presentation generation with the JuheAI toolchain.