# Data-Analysis-in-Biochemistry

**Repository Path**: yiriso/Data-Analysis-in-Biochemistry

## Basic Information

- **Project Name**: Data-Analysis-in-Biochemistry
- **Description**: 使用Python对”基础生物学实验“的结果进行数据分析，对结果进行一步分析。
- **Primary Language**: Python
- **License**: LGPL-2.1
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-28
- **Last Updated**: 2025-03-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 基础生物学实验数据分析
使用Python对”基础生物学实验“的结果进行数据分析，对结果进行一步分析。
## 实验一 缓冲溶液的配制和氨基酸两性性质测定
主要对氨基酸的滴定曲线做了数学解析。

$$
K_1=\frac{[H^+][A^0]}{[A^+]}~~~~~~K_2=\frac{[H^+][A^-]}{[A^0]}
$$

$$
[A^+]+[A^0]+[A^-]=C
$$

$$
[H^+][OH^-]=K_w
$$

其中 $[A]$ 用以表示弱酸，这里就是指的甘氨酸的浓度，K_1 和 K_2 是甘氨酸的两个解离常数，C 指甘氨酸的总浓度，K_w 为水的离子积。以上四个式子已经涉及我们需要求解的 $pH$ 即 $[H^+]$,这时我们只需要引入变量即可求解 $pH-x$ 的曲线即滴定曲线。
注意到电荷守恒在加入盐酸和氢氧化钠的情况下分别有：

$$
[A^+]+[H^+]=[A^-]+[OH^-]+[Cl^-]
$$

$$
[A^+]+[H^+]=[A^-]+[OH^-]-[Na^+]
$$

这时我们就可以将 $+[Cl^-]$ 和 $-[Na^+]$ 等效为 $+x$ ，从而得到下式：

$$
[A^+]+[H^+]=[A^-]+[OH^-]+x
$$

至此我们得到了5个恒等式6个未知数组成的方程组，通过代换的方式我们可以解出 $x$ 关于 $[H^+]$ 略显复杂的函数表达式：

$$
x=(\frac{[H^+]}{K_1}-\frac{K_2}{[H^+]})\frac{C}{M}+[H^+]-\frac{K_w}{[H^+]}
$$

其中 M 为：

$$
M=\frac{[H^+]}{K_1}+\frac{K_2}{[H^+]}+1
$$

考虑到 $pH=-lg([H^+])$ , $pK_1=-lg(K_1)$ , $pK_2=-lg(K_2)$ 可以进一步写成 $x$ 关于 $pH$ 的函数表达式 $x=g(pH)$ 如下:

$$
x=g(pH)=\frac{(10^{pK1-pH}-10^{pH-pK_2})~C}{10^{pK1-pH}+10^{pH-pK_2}+1}+10^{-pH}-10^{pH-pK_w}
$$

不难发现我们所得到是 $x$ 关于 $pH$ 的函数，而滴定曲线是 $pH$ 关于 $x$ 的函数，所以我们需要进行反解以得到我们所需要的滴定曲线 $pH=f(x)$ 。然而该函数是不易反解的，注意不是不能反解只是涉及到十分冗长表达式，这是一方面原因；另一方面，我们完全可以通过对换坐标轴实现函数的翻转，并且利用隐函数求导法则我们也可以方便的求得导数关系。

## 实验二 分光光度计线性分辨范围测定---BCA和考马斯亮蓝
### 一、寻找线性范围
#### 1.滑动窗口
以下图为例，我们在选取点的时候要保证是连续的且不少于五个点，否则得出线性是无意义的。可见我们更注重的是连续点的个数，这关乎我们结果的可信度，所以采用滑动窗口的方式来查找符合 $R$ 阈值的点的个数并选取最大的。

![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/result/fig/fig12.png)

滑动窗口图解：

![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/sw.png)

#### 2. $\chi^2$ 分布与综合线性浓度区间
对结果较好的组赋予较高的权重，这样对每所有组浓度范围加权求和，从而得到一个本次实验的线性浓度的概率密度函数。这里权重简单的采用高于 $R$ 阈值的量来表示, 所以浓度分布 $W$ 如下所示：

![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/fb.png)

$\chi^2$ 分布可较好的体现上图所呈现的分布特征，其概率密度函数如下：

$$ 
f(x)=\left\{
\begin{aligned}
&\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}     &x \geqslant 0\\
&0    & x < 0\\
\end{aligned}
\right.
$$

下图为 $\chi^2$ 分布的概率密度函数的拟合效果，蓝色部分为95%置信度的线性浓度区间。

![Alt text](Ex2%20%E5%88%86%E5%85%89%E5%85%89%E5%BA%A6%E8%AE%A1%E7%BA%BF%E6%80%A7%E5%88%86%E8%BE%A8%E8%8C%83%E5%9B%B4---%E8%80%83%E9%A9%AC%E6%96%AF%E4%BA%AE%E8%93%9D/kf.png)

分析结果：
我们有95%的把握认为当浓度在 0.0002-0.3000 $mg/ml$ 是呈线性的。

#### 3. 数据清洗
##### 去除缺失数据
##### 舍去实验结果较不理想的组
#### 4. 规范浓度
可以明显看出5，6，8组线性部分的斜率与其他组有较大的差异，且这种差异性与线性开始组和结束组，尤其是结束组密切相关，我们猜想这样的异常是由不同的稀释方法导致的。一般情况下最好是将其舍去的，但这样的话就没几组数据了，所以考虑将其规范到相近的浓度。
观察**朗博——比尔定律**：

$$
A = \varepsilon bC
$$

对于同一温度下的同一物质，在同型号的分光机，我们可以假定 $\varepsilon$ 是常数，同时我们所使用的比色皿的厚度基本是一致的，那么实验中的 $k$ 较小就有可能是由稀释时较小的浓度梯度导致的。这样我们就可以将浓度按斜率比率缩放到合适的大小。
### 二、规范测定方法
此部分简要展示和比较The Bradford assay(Bradford,1976)和Protocol for the Bradford assay(Clara L. Kielkopf etc,2020)两种方法。

#### The Bradford assay(standard method)
##### 实验方法
0.1ml蛋白溶液(从10到100微克梯度,用缓冲溶液补齐体积到0.1ml)、5ml bradford试剂。充分震荡摇匀后，在2min后1h前以空白组(仅bradford试剂)对照，以蛋白质量为横轴，吸光度为纵轴绘制标准曲线。  
##### 线性范围
经比较，此处使用的bradford试剂和本实验报告中提供的配方完全一致，若配置过程按照实验报告进行，可认为使用了同样的bradford试剂，这为分析文献中Figure1提供基础。但由于没有精确实验数据而只能粗略目测，文献中线性范围大致相当于本实验中0到0.05mg/ml，但考虑到温度，湿度，材料来源，操作方法等变量，此线性范围仅供参考。
#### Protocol for the Bradford assay
##### 实验方法
0到20微克蛋白浓度梯度(使用去离子水补充体积到20微升)、10微升缓冲液、1ml bradford试剂。充分混合均匀后，室温条件5min，以空白组为对照测量吸光度，绘制标准曲线。
##### 优势和不足
后者是为96-well plate format(96孔平板)设计的方法，优势是用量少，使用multi-channel pipettle(多通道移液器)操作简便，而且标准和样品的吸光度可以同时读取，缺陷是其它物质的干扰影响有所增加。

***
#### 参考文献
1.Bradford MM. A rapid and sensitive method for the quantitation of microgram quantities of protein utilizing the principle of protein-dye binding. Anal Biochem. 1976 May 7;72:248-54. doi: 10.1006/abio.1976.9999. PMID: 942051.

2.Kielkopf CL, Bauer W, Urbatsch IL. Bradford Assay for Determining Protein Concentration. Cold Spring Harb Protoc. 2020 Apr 1;2020(4):102269. doi: 10.1101/pdb.prot102269. PMID: 32238597.

## 实验五 小鼠血清、肝脏和肌肉中甘油三酯含量

### 数据处理与画图

#### 数据清洗
由于数据的数目较少，这里直接通过人工观察的方式即可除去异常的数据点

#### 浓度计算
依据**朗博——比尔定律**可以计算得组织中的甘油三酯含量

$$
C_i= \frac{A_i-A_0}{A_s-A_0}C_s
$$

其中 $C_i$ 为样品管的甘油三酯浓度，$C_s$ 为标准管的甘油三酯浓度。
$A_i$, $A_s$, $A_0$,分别为样品管，标准管，空白管的吸光度。

#### 画图
![Alt text](Ex5%20%E5%AE%9E%E9%AA%8C%E4%BA%94%20%E5%B0%8F%E9%BC%A0%E8%A1%80%E6%B8%85%E3%80%81%E8%82%9D%E8%84%8F%E5%92%8C%E8%82%8C%E8%82%89%E4%B8%AD%E7%94%98%E6%B2%B9%E4%B8%89%E9%85%AF%E5%90%AB%E9%87%8F%E7%9A%84%E6%B5%8B%E5%AE%9A/TG_tissues.png)

### K-W平均秩检验（Kruskal-Wailis H）
未通过正态性和方差齐性检验，采取非参数检验的方式。

Kruskal-Wallis检验的思想是把n组样本混合起来成为一个数据集（即假设他们是来自同一个样本）,然后将数据从小到大编秩，每个数据在混合数据集中都有自己的秩；如果顺序位数相同，则取平均值作为秩。再然后求各组的平均秩次，如果这n组数据来自同一个样本，则应该各组的秩次和混合数据的总平均秩次相差不大，如果差异很大的话，则说明各组不是来自同一个总体。

|血清|肝脏|肌肉|p|
|:---:|:---:|:---:|:----:|
|√|√|√|0.0191146489820851|
|√|√||0.8725590308923732|
|√||√|0.0161224153433004|
||√|√|0.0163091718777549|

可见，血清与肝脏的甘油三酯含量差异不大，而肌肉中的甘油三酯含量有明显差异（p<0.05）