JUHE API Marketplace
DATASET
Open Source Community

zgcarvalho/oas-test

Observed Antibody Space数据集是一个生物学和蛋白质领域的数据集,包含配对和不配对两种配置。配对配置包含重链和轻链的序列信息,而不配对配置仅包含单一链的序列信息。数据集的大小在10M到100M之间,适用于大规模数据处理。

Updated 9/28/2023
hugging_face

Description

数据集卡片 for Observed Antibody Space

数据集描述

数据集概要

该数据集名为“Observed Antibody Space”,包含两个配置:pairedunpaired。数据集大小介于10M到100M之间,采用CC BY 4.0许可。

支持的任务和排行榜

[更多信息需要]

语言

[更多信息需要]

数据集结构

数据实例

[更多信息需要]

数据字段

paired 配置

  • sequence_heavy: 字符串类型
  • sequence_light: 字符串类型
  • cdr1_heavy: 字符串类型
  • cdr2_heavy: 字符串类型
  • cdr3_heavy: 字符串类型
  • fwr1_heavy: 字符串类型
  • fwr2_heavy: 字符串类型
  • fwr3_heavy: 字符串类型
  • fwr4_heavy: 字符串类型
  • cdr1_light: 字符串类型
  • cdr2_light: 字符串类型
  • cdr3_light: 字符串类型
  • fwr1_light: 字符串类型
  • fwr2_light: 字符串类型
  • fwr3_light: 字符串类型
  • fwr4_light: 字符串类型
  • species: 字符串类型
  • vaccine: 字符串类型
  • disease: 字符串类型

unpaired 配置

  • sequence: 字符串类型
  • chain: 字符串类型
  • cdr1: 字符串类型
  • cdr2: 字符串类型
  • cdr3: 字符串类型
  • fwr1: 字符串类型
  • fwr2: 字符串类型
  • fwr3: 字符串类型
  • fwr4: 字符串类型
  • species: 字符串类型
  • vaccine: 字符串类型
  • disease: 字符串类型

数据分割

paired 配置

  • train 分割
    • 字节数: 985822519
    • 样本数: 1777462

unpaired 配置

  • train 分割
    • 字节数: 4671469078
    • 样本数: 15925303

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁?

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据集的考虑因素

数据集的社会影响

[更多信息需要]

讨论偏见

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

[更多信息需要]

贡献

[更多信息需要]

AI studio

Generate PPTs instantly with Nano Banana Pro.

Generate PPT Now

Access Dataset

Login to Access

Please login to view download links and access full dataset details.

Topics

Biology
Protein Research

Source

Organization: hugging_face

Created: Unknown

Power Your Data Analysis with Premium AI Models

Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.

Enjoy a free trial and save 20%+ compared to official pricing.