# Data-Analysis-in-Biochemistry **Repository Path**: yiriso/Data-Analysis-in-Biochemistry ## Basic Information - **Project Name**: Data-Analysis-in-Biochemistry - **Description**: 使用Python对”基础生物学实验“的结果进行数据分析,对结果进行一步分析。 - **Primary Language**: Python - **License**: LGPL-2.1 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-28 - **Last Updated**: 2025-03-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 基础生物学实验数据分析 使用Python对”基础生物学实验“的结果进行数据分析,对结果进行一步分析。 ## 实验一 缓冲溶液的配制和氨基酸两性性质测定 主要对氨基酸的滴定曲线做了数学解析。 $$ K_1=\frac{[H^+][A^0]}{[A^+]}~~~~~~K_2=\frac{[H^+][A^-]}{[A^0]} $$ $$ [A^+]+[A^0]+[A^-]=C $$ $$ [H^+][OH^-]=K_w $$ 其中 $[A]$ 用以表示弱酸,这里就是指的甘氨酸的浓度,K_1 和 K_2 是甘氨酸的两个解离常数,C 指甘氨酸的总浓度,K_w 为水的离子积。以上四个式子已经涉及我们需要求解的 $pH$ 即 $[H^+]$,这时我们只需要引入变量即可求解 $pH-x$ 的曲线即滴定曲线。 注意到电荷守恒在加入盐酸和氢氧化钠的情况下分别有: $$ [A^+]+[H^+]=[A^-]+[OH^-]+[Cl^-] $$ $$ [A^+]+[H^+]=[A^-]+[OH^-]-[Na^+] $$ 这时我们就可以将 $+[Cl^-]$ 和 $-[Na^+]$ 等效为 $+x$ ,从而得到下式: $$ [A^+]+[H^+]=[A^-]+[OH^-]+x $$ 至此我们得到了5个恒等式6个未知数组成的方程组,通过代换的方式我们可以解出 $x$ 关于 $[H^+]$ 略显复杂的函数表达式: $$ x=(\frac{[H^+]}{K_1}-\frac{K_2}{[H^+]})\frac{C}{M}+[H^+]-\frac{K_w}{[H^+]} $$ 其中 M 为: $$ M=\frac{[H^+]}{K_1}+\frac{K_2}{[H^+]}+1 $$ 考虑到 $pH=-lg([H^+])$ , $pK_1=-lg(K_1)$ , $pK_2=-lg(K_2)$ 可以进一步写成 $x$ 关于 $pH$ 的函数表达式 $x=g(pH)$ 如下: $$ x=g(pH)=\frac{(10^{pK1-pH}-10^{pH-pK_2})~C}{10^{pK1-pH}+10^{pH-pK_2}+1}+10^{-pH}-10^{pH-pK_w} $$ 不难发现我们所得到是 $x$ 关于 $pH$ 的函数,而滴定曲线是 $pH$ 关于 $x$ 的函数,所以我们需要进行反解以得到我们所需要的滴定曲线 $pH=f(x)$ 。然而该函数是不易反解的,注意不是不能反解只是涉及到十分冗长表达式,这是一方面原因;另一方面,我们完全可以通过对换坐标轴实现函数的翻转,并且利用隐函数求导法则我们也可以方便的求得导数关系。 ## 实验二 分光光度计线性分辨范围测定---BCA和考马斯亮蓝 ### 一、寻找线性范围 #### 1.滑动窗口 以下图为例,我们在选取点的时候要保证是连续的且不少于五个点,否则得出线性是无意义的。可见我们更注重的是连续点的个数,这关乎我们结果的可信度,所以采用滑动窗口的方式来查找符合 $R$ 阈值的点的个数并选取最大的。 ![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/result/fig/fig12.png) 滑动窗口图解: ![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/sw.png) #### 2. $\chi^2$ 分布与综合线性浓度区间 对结果较好的组赋予较高的权重,这样对每所有组浓度范围加权求和,从而得到一个本次实验的线性浓度的概率密度函数。这里权重简单的采用高于 $R$ 阈值的量来表示, 所以浓度分布 $W$ 如下所示: ![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/fb.png) $\chi^2$ 分布可较好的体现上图所呈现的分布特征,其概率密度函数如下: $$ f(x)=\left\{ \begin{aligned} &\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}} &x \geqslant 0\\ &0 & x < 0\\ \end{aligned} \right. $$ 下图为 $\chi^2$ 分布的概率密度函数的拟合效果,蓝色部分为95%置信度的线性浓度区间。 ![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/kf.png) 分析结果: 我们有95%的把握认为当浓度在 0.0002-0.3000 $mg/ml$ 是呈线性的。 #### 3. 数据清洗 ##### 去除缺失数据 ##### 舍去实验结果较不理想的组 #### 4. 规范浓度 可以明显看出5,6,8组线性部分的斜率与其他组有较大的差异,且这种差异性与线性开始组和结束组,尤其是结束组密切相关,我们猜想这样的异常是由不同的稀释方法导致的。一般情况下最好是将其舍去的,但这样的话就没几组数据了,所以考虑将其规范到相近的浓度。 观察**朗博——比尔定律**: $$ A = \varepsilon bC $$ 对于同一温度下的同一物质,在同型号的分光机,我们可以假定 $\varepsilon$ 是常数,同时我们所使用的比色皿的厚度基本是一致的,那么实验中的 $k$ 较小就有可能是由稀释时较小的浓度梯度导致的。这样我们就可以将浓度按斜率比率缩放到合适的大小。 ### 二、规范测定方法 此部分简要展示和比较The Bradford assay(Bradford,1976)和Protocol for the Bradford assay(Clara L. Kielkopf etc,2020)两种方法。 #### The Bradford assay(standard method) ##### 实验方法 0.1ml蛋白溶液(从10到100微克梯度,用缓冲溶液补齐体积到0.1ml)、5ml bradford试剂。充分震荡摇匀后,在2min后1h前以空白组(仅bradford试剂)对照,以蛋白质量为横轴,吸光度为纵轴绘制标准曲线。 ##### 线性范围 经比较,此处使用的bradford试剂和本实验报告中提供的配方完全一致,若配置过程按照实验报告进行,可认为使用了同样的bradford试剂,这为分析文献中Figure1提供基础。但由于没有精确实验数据而只能粗略目测,文献中线性范围大致相当于本实验中0到0.05mg/ml,但考虑到温度,湿度,材料来源,操作方法等变量,此线性范围仅供参考。 #### Protocol for the Bradford assay ##### 实验方法 0到20微克蛋白浓度梯度(使用去离子水补充体积到20微升)、10微升缓冲液、1ml bradford试剂。充分混合均匀后,室温条件5min,以空白组为对照测量吸光度,绘制标准曲线。 ##### 优势和不足 后者是为96-well plate format(96孔平板)设计的方法,优势是用量少,使用multi-channel pipettle(多通道移液器)操作简便,而且标准和样品的吸光度可以同时读取,缺陷是其它物质的干扰影响有所增加。 *** #### 参考文献 1.Bradford MM. A rapid and sensitive method for the quantitation of microgram quantities of protein utilizing the principle of protein-dye binding. Anal Biochem. 1976 May 7;72:248-54. doi: 10.1006/abio.1976.9999. PMID: 942051. 2.Kielkopf CL, Bauer W, Urbatsch IL. Bradford Assay for Determining Protein Concentration. Cold Spring Harb Protoc. 2020 Apr 1;2020(4):102269. doi: 10.1101/pdb.prot102269. PMID: 32238597. ## 实验五 小鼠血清、肝脏和肌肉中甘油三酯含量 ### 数据处理与画图 #### 数据清洗 由于数据的数目较少,这里直接通过人工观察的方式即可除去异常的数据点 #### 浓度计算 依据**朗博——比尔定律**可以计算得组织中的甘油三酯含量 $$ C_i= \frac{A_i-A_0}{A_s-A_0}C_s $$ 其中 $C_i$ 为样品管的甘油三酯浓度,$C_s$ 为标准管的甘油三酯浓度。 $A_i$, $A_s$, $A_0$,分别为样品管,标准管,空白管的吸光度。 #### 画图 ![Alt text](Ex5%20%E5%AE%9E%E9%AA%8C%E4%BA%94%20%E5%B0%8F%E9%BC%A0%E8%A1%80%E6%B8%85%E3%80%81%E8%82%9D%E8%84%8F%E5%92%8C%E8%82%8C%E8%82%89%E4%B8%AD%E7%94%98%E6%B2%B9%E4%B8%89%E9%85%AF%E5%90%AB%E9%87%8F%E7%9A%84%E6%B5%8B%E5%AE%9A/TG_tissues.png) ### K-W平均秩检验(Kruskal-Wailis H) 未通过正态性和方差齐性检验,采取非参数检验的方式。 Kruskal-Wallis检验的思想是把n组样本混合起来成为一个数据集(即假设他们是来自同一个样本),然后将数据从小到大编秩,每个数据在混合数据集中都有自己的秩;如果顺序位数相同,则取平均值作为秩。再然后求各组的平均秩次,如果这n组数据来自同一个样本,则应该各组的秩次和混合数据的总平均秩次相差不大,如果差异很大的话,则说明各组不是来自同一个总体。 |血清|肝脏|肌肉|p| |:---:|:---:|:---:|:----:| |√|√|√|0.0191146489820851| |√|√||0.8725590308923732| |√||√|0.0161224153433004| ||√|√|0.0163091718777549| 可见,血清与肝脏的甘油三酯含量差异不大,而肌肉中的甘油三酯含量有明显差异(p<0.05)