# protein-analysis **Repository Path**: kahsolt/protein-analysis ## Basic Information - **Project Name**: protein-analysis - **Description**: 这个真的分析不了,祝我下次好运…… - **Primary Language**: Python - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-11-19 - **Last Updated**: 2022-12-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # protein-analysis ​ 雨叶啊雨叶,啊雨叶雨叶…… ---- ### Quick Start - put `` under `data` folder - see consts in `data.py` - install dependencies `pip install -r requiremets.txt` - run `python preprocess.py` - run `python pca.py` and `python pca.py -M tsne` - run any algorithm - `knn.py`: kNN - `knn_color.py`: semi-supervised kNN - `bayes.py`: Naive Bayes - `lr.py`: Logistic Regression ### Target Problem 找出每个 Kind 中 最柔性flex/最稳定stab 的那些 Pair - 期望得到的结论: - D-R是稳定的 - Phob_D-R是稳定的 - 在Phob_D-R中,随着Dist从短到长,稳定性blabla - 以下结论没有意义: - flex_Arom_I_F-F_1MPE21_A33F-B26F是柔性的 ### Current Problem 把 2分类 变成 3分类 - 前情提要 - 新增了一列Prop3,人为划分了少量的稳定St、柔性Fl、其它Ot,剩下的是Undefined - 先抽样不含Undefined的,KNN预测正确率高达99.724%,这说明St、Fl、Ot的划分确实很有区分度……吧? 【正确的!】 - [*] 当下目标 - 试图使用不含Undefined的样本训练KNN,使它能预测所有的Undefined属于哪一类 - 实际上,可以预测,预测成功了一个包含0,1,2的大列表,但我不知道怎么整合预测结果,怎么去分析预测(比如用什么可视化方法) ### Division Basis 划分稳定(St)、柔性(Fl)和其它(Ot)的依据 V0.3 【您踏马的就是不会用 pd.groupBy() 是罢?】 - St: Ave 0.4~0.7 and CV <= 0.1 and Nump >= 0.9 - Ave >= 0.8 and Nump >= 0.9 - Fl: Ave <= 0.3 and CV >= 0.5 and Nump <= 0.6 - Ot: Ave 0.4~0.7 and CV 0.3~0.4 or Nump 0.7~0.8 - Ave >= 0.8 and Nump <= 0.6 - Ave <= 0.3 and CV >= 0.5 and Nump >= 0.9 - Ave <= 0.3 and CV <= 0.1 ---- 2022/11/18 Armit 2022/12/02 RainLeaf