JUHE API Marketplace
DATASET
Open Source Community

PepBDB-ML

This project aims to generate a rich dataset from the PepBDB database for machine‑learning and computational‑biology research. The dataset processes peptide‑protein interaction data, extracts sequences, and adds various biochemical features, creating a tabular dataset suitable for Random Forest, XGBoost, and other analyses. Each row is labeled as binding residue (1) or non‑binding residue (0).

Updated 6/28/2024
github

Description

PepBDB-ML 数据集生成

概述

该项目旨在从 PepBDB 数据库生成一个用于机器学习和计算生物学研究的增强型数据集。

该脚本处理肽-蛋白质相互作用数据,提取序列,并使用各种生化特征对其进行丰富,创建适合使用随机森林、XGBoost 等进行进一步分析的表格数据集。每行标记为结合残基(1)或非结合残基(0)。

表格数据集 peppi_data.csv

AAProtein HydrophobicityProtein Steric ParameterProtein VolumeProtein PolarizabilityProtein Helix ProbabilityProtein Beta ProbabilityProtein Isoelectric PointProtein HSE UpProtein HSE DownProtein Pseudo AnglesProtein ASAProtein PhiProtein PsiProtein SS HProtein SS BProtein SS EProtein SS GProtein SS IProtein SS TProtein SS SProtein SS -ARNDCQEGHILKMFPSTWYVBinding Indices
L0.68918918918918910.96078431372549010.82227784730913660.62416107382550330.68235294117647060.74736842105263150.401752190237797350.33333333333333330.428571428571428550.86998821329743250.44566862910008420.230666920007600280.08160071540353231.00.00.00.00.00.00.00.00.00.00.00.00.66666666666666660.00.00.00.166666666666666630.55555555555555561.00.00.55555555555555560.50.333333333333333260.00.00.250.300000000000000040.71428571428571420
K0.5180180180180180.66666666666666670.86107634543178980.73489932885906040.69411764705882350.252631578947368430.87234042553191490.00.57142857142857140.87472497973782880.72709840201850310.197035911077332370.094790968030404641.00.00.00.00.00.00.00.00.33333333333333330.44444444444444440.363636363636363650.300000000000000040.66666666666666660.50.33333333333333330.300000000000000040.50.22222222222222220.50.85714285714285710.44444444444444440.21.00.80.28571428571428570.1250.20.428571428571428551
D0.20720720720720720.74509803921568630.401752190237797350.35234899328859060.482352941176470650.189473684210526240.00.00.499999999999999940.61082881051247120.77118679923841770.19114573437203120.15537670467247931.00.00.00.00.00.00.00.00.00.22222222222222220.45454545454545461.00.00.3750.66666666666666660.20.50.00.00.428571428571428550.00.00.66666666666666660.60000000000000010.142857142857142850.00.099999999999999980.142857142857142851

图像数据集 peppi_data_imgs

bash peppi_data_imgs ├── binding │ ├── img1.jpg │ ├── img2.jpg │ ├── img3.jpg │ └── ... └── nonbinding ├── img4.jpg ├── img5.jpg ├── img6.jpg └── ...

数据准备过程

加载数据

脚本开始从 PepBDB 数据库加载 peptidelist.txt 文件。列名被重命名以提高可读性和便利性。

初始过滤

脚本过滤掉:

  • 涉及核酸的条目。
  • 分辨率高于 2.5 Å 的模型以保证质量。
  • 短于 10 个氨基酸的肽。

序列提取

使用 BioPython 从 PDB 文件中提取序列。我们还将过滤掉包含非标准氨基酸的序列。

结合残基识别

使用 PRODIGY(默认参数)识别结合残基。

特征提取

使用 AAindex1 进行残基特定特征提取。

数据丰富

添加额外的生化特征,包括 HSE、ASA、DSSP 代码和 PSSM 配置文件。

运行脚本

要运行脚本,只需执行:

bash tar -xzf pepbdb-20200318.tgz python gendata.py

gendata.py 还可以生成类似于 Visual 数据集的图像。要启用此选项,请将 --images 标志设置为 true 并指定结合和非结合图像的完整路径:

bash python gendata.py --images True --binding_path path/to/binding --nonbinding_path path/to/nonbinding

重要提示:请记住使用特定于您系统的路径修改 paths.py

确保您有必要的输入文件和目录,如脚本中所指定。

注意事项

  • 图像目录 peppi_data_imgs.tgz 和表格数据集 peppi_data.csv.gz 不是 1-1 对应的,CSV 不是图像的标签文件。虽然它们基于相同的数据构建,但它们不包含相同数量的记录。
    • peppi_data.csv 中有 811,830 条记录
      • 结合:110,268
      • 非结合:701,562
    • peppi_data_imgs 中有 806,129 张图像
      • 结合:109,880
      • 非结合:696,249
  • 这是因为 peppi_data.csv 中的某些行(残基)有 NaN 值。在导出 CSV 之前,这些行单独被删除。然而,相同的错误行/残基可以出现在多张图像中(因为每张图像代表七个连续残基)。为了保持可用性,包含该残基的所有图像都被删除。

AI studio

Generate PPTs instantly with Nano Banana Pro.

Generate PPT Now

Access Dataset

Login to Access

Please login to view download links and access full dataset details.

Topics

Machine Learning
Computational Biology

Source

Organization: github

Created: 6/26/2024

Power Your Data Analysis with Premium AI Models

Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.

Enjoy a free trial and save 20%+ compared to official pricing.