构建蛋白质复合体结构中所有链序列的同源性矩阵

为了生成蛋白质复合体结构中所有链之间的同源性矩阵，我们可以使用基于结构比对的工具（如 TM-align），逐对地比对所有链，并根据比对结果（通常是 TM-score）构建同源性矩阵。

具体步骤包括：

提取每条链的序列：从蛋白质复合体的 PDB 文件中提取每个链的序列，并保存成单独的文件。
使用 TM-align 进行比对：对每对链进行比对，计算它们的 TM-score。
构建同源性矩阵：将每对链的 TM-score 记录到矩阵中，形成链序列的同源性矩阵。

步骤 1：提取蛋白质复合体的所有链序列

可以使用 BioPython 提取每个链的序列并保存为单独的 .pdb 文件。

from Bio import PDBdef extract_chain_sequences(pdb_file, output_dir):"""从PDB文件中提取所有链的序列，并保存为独立的PDB文件。:param pdb_file: 蛋白质复合体PDB文件路径:param output_dir: 输出目录，用于保存各链的PDB文件"""parser = PDB.PDBParser(QUIET=True)structure = parser.get_structure('complex', pdb_file)io = PDB.PDBIO()for model in structure:for chain in model:chain_id = chain.get_id()chain_pdb_file = f"{output_dir}/{chain_id}.pdb"io.set_structure(chain)io.save(chain_pdb_file)print(f"Saved chain {chain_id} to {chain_pdb_file}")# 示例用法
pdb_file = 'complex.pdb'  # 你的复合体PDB文件
output_dir = 'chains_pdb'  # 输出目录
extract_chain_sequences(pdb_file, output_dir)

步骤 2：使用 TM-align 比对链

创建一个函数，使用 TM-align 比对每对链，并提取比对结果中的 TM-score。

import subprocess
import os
import numpy as npdef run_tmalign(chain1_pdb, chain2_pdb):"""使用 TM-align 对两个蛋白质链进行比对，返回 TM-score。:param chain1_pdb: 第一个链的PDB文件路径:param chain2_pdb: 第二个链的PDB文件路径:return: 两个链之间的 TM-score"""tmalign_cmd = f"TM-align {chain1_pdb} {chain2_pdb}"result = subprocess.run(tmalign_cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True)output = result.stdout.decode('utf-8')for line in output.splitlines():if line.startswith("TM-score="):return float(line.split()[1])return 0.0

步骤 3：构建同源性矩阵

每个链之间的 TM-score 保存在对称矩阵的对应位置，构成同源性矩阵。该矩阵的每个元素表示两个链之间的结构相似性（TM-score），范围为 0 到 1，值越接近 1，表示相似性越高。

def generate_homology_matrix(pdb_dir):"""使用 TM-align 对复合体中所有链进行比对，生成同源性矩阵。:param pdb_dir: 存放链PDB文件的目录:return: 同源性矩阵"""chain_files = [f for f in os.listdir(pdb_dir) if f.endswith('.pdb')]chain_ids = [f.split('.')[0] for f in chain_files]num_chains = len(chain_ids)homology_matrix = np.zeros((num_chains, num_chains))for i in range(num_chains):for j in range(i, num_chains):chain1_pdb = os.path.join(pdb_dir, chain_files[i])chain2_pdb = os.path.join(pdb_dir, chain_files[j])tm_score = run_tmalign(chain1_pdb, chain2_pdb)homology_matrix[i, j] = tm_scorehomology_matrix[j, i] = tm_scorereturn chain_ids, homology_matrix# 示例用法
pdb_dir = 'chains_pdb'  # 保存各链PDB文件的目录
chain_ids, homology_matrix = generate_homology_matrix(pdb_dir)print("链ID列表：", chain_ids)
print("同源性矩阵：")
print(homology_matrix)

代码解读

extract_chain_sequences 函数：
- 从给定的 PDB 文件中提取每个链，并将它们保存为单独的 PDB 文件。
- 使用 BioPython 库进行 PDB 文件的解析和操作。
run_tmalign 函数：
- 使用 TM-align 工具比对两个链的结构，输出比对结果，并从输出中提取 TM-score。
generate_homology_matrix 函数：
- 遍历每对链，对其进行比对，构建同源性矩阵。
- 矩阵是对称的，矩阵中的值表示 TM-score，体现链之间的结构相似性。

结果

homology_matrix 是蛋白质复合体中所有链的同源性矩阵，chain_ids 是与矩阵行和列对应的链的标识符。

构建蛋白质复合体结构中所有链序列的同源性矩阵

步骤 1：提取蛋白质复合体的所有链序列

步骤 2：使用 TM-align 比对链

步骤 3：构建同源性矩阵

代码解读

结果

相关资讯

热文排行

最新新闻

推荐新闻

热搜词