# Proteus-Legacy **Repository Path**: ieeetrans/Proteus-Legacy ## Basic Information - **Project Name**: Proteus-Legacy - **Description**: 项目名称 :Proteus 项目内容:目前最大的蛋白质突变数据库与ZeroShot模型测试😭 名称解蛋:白质突变相关。Proteus可以改变自己的形态,而蛋白质突变也可以改变蛋白质的结构和功能。Proteus(普罗提斯)是希腊神话中的变形神,能够改变自己的形态,具有预知未来的能力。Proteus经常被认为是一种难以捉摸的存在,因为他可以通过改变自己的形态来变化,这也使得“Protean”这个词成为了一种形容词,用来形容难以捉摸、多变的事物。) - **Primary Language**: 其他 - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-03-28 - **Last Updated**: 2024-03-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Protein Fitness Zero-shot Prediction (PFZP) ## 目录说明 - data 数据 ## data/common_proteins 文件组织说明 - common_proteins (数据总目录) - NAME/ 蛋白质的主目录 - NAME/NAME.fasta 蛋白质的序列文件 fasta格式 - NAME/NAME.pdb 蛋白质的3D结构文件 pdb格式 - NAME/NAME.a3m 蛋白质的多序列比对文件 a3m格式 (a3m文件的读取和fasta文件的读取一样) - NAME/NAME-info.json 蛋白质的基本信息 json格式 - NAME/experiments/ 蛋白质的突变数据集目录(实验预测) - NAME/experiments/A-B.tsv 命名规则:(A是蛋白质名;B是标签;AB均不允许包含控制字符"-") - NAME/predictions/ 蛋白质的突变数据集目录(Zero-shot模型预测) - NAME/predictions/A-B.C.tsv 命名规则:(A是蛋白质名;B是标签;C是模型名;ABC均不允许包含控制字符"-") ### Scripts 脚本使用说明 #### check_sequence check_sequence: (1)检查PDB文件序列和FASTA文件序列是否一致 (2)检查a3m文件和FASTA文件序列是否一致 ```shell python -m scripts.check_sequence --path ./data/common_proteins ``` #### check_format check_format 用于检查data/common_proteins目录中的数据是否符合README ```shell python -m scripts.check_format --path ./data/common_proteins ``` #### check_uniformity check_uniformity 用于检查突变的tsv文件是否和fasta文件一致 ```shell python -m scripts.check_uniformity --path ./data/common_proteins ``` #### check_tsv check_tsv 用于检查experiments和predictions的tsv文件是否一致 ```shell python -m scripts.check.tsv --path ./data/common_proteins ``` #### check_mutant_fault check_mutant_fault 用于检查实验文件中mutant列的错误,包括:1)突变前和突变后的氨基酸一致;2)缺失突变后的氨基酸 ```shell python -m scripts.check_mutant_fault --path ./data/common_proteins ``` #### check_tsv_score check_tsv_score 用于检查所有tsv文件的score列是否有空值 ```shell python -m scripts.check_tsv_score --path ./data/common_proteins ```