# EasyAmplicon
**Repository Path**: yongxinliu/EasyAmplicon
## Basic Information
- **Project Name**: EasyAmplicon
- **Description**: An easy using, open-resource, reproducible, and community-based pipeline for amplicon data analysis in microbiome
- **Primary Language**: Shell
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: https://github.com/YongxinLiu/EasyAmplicon
- **GVP Project**: No
## Statistics
- **Stars**: 12
- **Forks**: 4
- **Created**: 2021-12-19
- **Last Updated**: 2025-11-23
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 易扩增子 (EasyAmplicon)
英文版见(English Version in) README.md
版本:2.01
更新日期:2025/09/16
简单易学易用、开源、可重复且社区支持的扩增子数据分析流程
第一次使用参考`安装`段落下载并安装流程及依赖关系。使用RStudio打开`EasyAmplicon/pipeline.sh`即可逐行完成扩增子分析。
## 简介 (Introduction)
文件描述:
- Readme.md \# 英文版帮助
- Readme_cn.md \# 中文版帮助
- pipeline.sh \# Windows或Linux版命令行分析流程
- pipeline_mac.sh \# MacOS版命令行分析流程
- result/ \# 示例结果(正对照)
- result/Diversity.Rmd \# 交互式多样性可重复分析代码,可编译为HTML网页或Word文档报告
主要功能:
- 分析和可视化微生物组数据,尤其是16S rDNA扩增子测序
- 从原始数据到特征表的端对端
- 支持20余种分析方法,并生成出版级图表
- 在普通个人电脑上3小完成示例项目
- 中、英文双语帮助文档,中文视频教程支持确保可重复

**图1. 易扩增子分析双端扩增子数据的流程**

**图2. 结果的部分可视化示例**
## 安装(Install)
系统要求 System requirement: Windows 10+ / Mac OS 10.12+ / Ubuntu 20.04+
安装视频教程:https://www.bilibili.com/video/BV1Cb411f7La/
### 依赖软件环境(Install Dependency)
请安装与你操作系统一致的软件
- R语言环境R 4.x.x,支持R代码运行:,推荐下载Rtools实现包的源码安装
- R语言开发环境RStudio 2023.xx.x,用于执行流程:
- STAMP v2.1.3 特征表统计和分析图型界面软件
- (可选,仅Windows用户)Git Bash命令行环境的Git for Windows
2.xx.x,支持在Windows系统中运行Shell语言,下载并安装最新版:
以最常用的Windows系统(87.5%)为例,你可以快速下载上面的软件安装包:[Git for Windows](https://gitforwindows.org/)、[R](https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/base/)、[RStudio](https://posit.co/download/rstudio-desktop/)、[STAMP](https://github.com/dparks1134/STAMP/releases/download/v2.1.3/STAMP_2_1_3.exe),[合集见百度网盘db/win目录](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315)。
- (可选,推荐)R包的快速安装
在R语言的统计和可视化中会使用超过500个R包,安装不仅费时费力,而且经常出错或依赖其他编绎工具。为方便大家使用,我们提供了编绎好的R包合集下载,如 [Windows版](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315)、[Mac版](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 )。你可以下载解压后,将 `4.3` 目录移动至 `C:\Users\[$UserName]\AppData\Local\R\win-library\`中即完成安装。
# 注意:如显示缺少某个R包,可以通过以下方法单独安装
# 例如DADA2包托管在Bioconductor上,需要通过BiocManager来安装。
# 请打开您的R或Rstudio,在控制台(Console)中输入并执行以下命令:
# 首先,安装Bioconductor的核心管理工具 BiocManager
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
# 然后,通过 BiocManager 安装 DADA2
BiocManager::install("dada2")
# 此外,一些R包可以通过常规方式安装,比如需要 argparse 包来解析命令行参数,就可以使用:
install.packages("argparse")
安装各类R包时,控制台可能会出现大量的编译和安装信息,请耐心等待其完成。如果遇到问题,请根据提示信息检查您的R语言环境或网络连接。
### 安装易扩增子2 (Install EasyAmplicon 2)
- 易扩增子流程EasyAmplicon,包括分析流程代码、测序数据和示例结果(分析的正对照),
- 易微生物组EasyMicribome,提供易扩增子流程依赖的常用软件、脚本和数据库,
下载以上项目至C或D盘,并解压。以下提供三种下载方式可选(让你永远留有后手)
- 方法1. 网页下载。访问项目主页,点击 `Code` -- `Download`,选择下载位置,开始下载
- 方法2. git命令行下载。直接生成目录,无需解压。`git clone https://github.com/YongxinLiu/EasyAmplicon`和`git clone https://github.com/YongxinLiu/EasyMicrobiome`。 注:提示`fatal: unable to access`可能只是网络问题,重试或改天重试一般可解决,或找代理或朋友帮忙下载。
- 方法3. 直接从国内百度网盘链接中db/soft目录下载: [EasyAmplicon](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 )、[EasyMicrobiome](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 )
### 安装 Conda (Conda Installation)
# 下载最新版miniconda3 v24.9.2 , 安装日期2024/11/12, 141.47 Mb
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 安装,-b批量,-f无提示,-p目录,许可协议打yes
bash Miniconda3-latest-Linux-x86_64.sh -b -f
# 激活,然后关闭终端重开,提示符前出现(base)即成功
~/miniconda3/condabin/conda init
source ~/.bashrc
# 查看版本,conda 25.5.1, python 3.13.5
conda -V # 25.5.1
python --version # 3.13.5
# 添加常用频道
conda config --add channels bioconda # 生物软件 / Bioconda for bioinformatics software
conda config --add channels conda-forge # Highest priority / Conda-forge has the highest priority
# conda默认配置文件为 ~/.condarc 查看配置文件位置
# 你使用的是新版本 Conda(≥24),它要求用户必须手动接受各个源的服务条款(ToS),否则不能使用对应的频道。
# conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main
# conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r
# mamba是用于管理环境的 CLI 工具。相比于 conda,mamba 是用 c++重写了 conda 的部分功能,运行效率显著提高,可以进行并行的下载,使用 rpm 包管理工具中的 libsolv,可以更快的解决环境依赖问题。
conda install mamba -y
mamba install pandas -y
mamba install conda-pack -y
#conda config --set channel_priority strict #设置严格的仓库优先级(最好不要使用)/ Set strict channel priority (better not to use)
#conda config --set channel_priority flexible #禁用仓库优先级 / Disable channel priority
conda config --show-sources
# 查看虚拟环境列表
conda env list
更多conda中文安装使用教程参考:[Nature Method:Bioconda解决生物软件安装的烦恼](https://mp.weixin.qq.com/s/SzJswztVB9rHVh3Ak7jpfA)
[一文掌握Conda软件安装:虚拟环境、软件通道、加速solving、跨服务器迁移](https://mp.weixin.qq.com/s/tKAU09_w7Cu7khA9M2EGEQ)
#### Easyamplicon 2的创建安装及环境激活
**注:直接安装、下载解压安装,二选一。一种方法不成功,尝试另一种。**
cd EasyAmplicon2
## 方法1.直接安装
conda env create -f EasyAmplicon2.yaml
conda activate easyamplicon2
## 方法2.下载安装(推荐)
### 指定conda文件名
s=easyamplicon2
soft=~/miniconda3
### 下载安装
百度网盘下载链接:Baidu Net Disk:https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315
文件路径:db/amplicon/easyamplicon2.tar.gz
### 指定安装目录
mkdir -p ${soft}/envs/${s}
tar -xvzf ${s}.tar.gz -C ${soft}/envs/${s}
### 启动环境
conda activate ${s}
### 初始化环境
### easyamplicon2环境包含了大部分分析软件
conda unpack
### (可选)扩展软件和数据库
- Rtools:用于从源码进行R包的安装,windows版本见:https://cran.rstudio.com/bin/windows/Rtools/
- 16S数据库:16S常用RDP/SILVA/GreenGene/EzBioCloud数据库进行物种注释,默认下载了RDP和EzBioCloud。可以从上述数据库官网下载并整理为USEARCH使用的格式,此处推荐从[USEARCH官网](http://www.drive5.com/sintax)下载USEARCH兼容格式的数据库。默认流程使用体积小巧的RDP
v18训练集数据库
(rdp_16s_v18.fa.gz),并已保存于EasyMicrobiome/usearch目录中。可选GreenGenes
13.5 (gg_16s_13.5.fa.gz)和SILVA (silva_16s_v123.fa.gz)
数据库,从[USEARCH官网](http://www.drive5.com/sintax)根据需要下载并保存于usearch目录中。此外,如果要开展PICRUSt和Bugbase功能预测分析,还需要使用GreenGenes数据库13.5中按97%聚类的OTU序列
(己保存于流程gg目录中97_otus.fasta.gz)。该数据源于[GreenGenes官方](ftp://greengenes.microbio.me/greengenes_release),解压后选择其中的97_otus.fasta保存于gg目录下
- ITS数据库:研究真菌或真核生物采用转录间隔区 (Intergenic Transcribed
Spacer)
测序,需要使用UNITE数据库,目前最新版已经保存于EasyMicrobiome\usearch目录。如流程中数据库没有及时更新,可在UNITE官网
()
下载适合USEARCH的最新版注释数据库。官方数据库存在格式问题,详细常见pipeline.sh中附录常用问题
## 快速运行(Quick Start)
使用视频教程:https://www.bilibili.com/video/BV1is4y157Ms/
1. 准确输入数据:典型的扩增子测序起始文件包括测序数据和元数据两类。
测序数据(\*.fq.gz)为seq/目录中的成对fastq/fq文件,通常采用.gz的压缩格式保存节省空间。元数据(metadata.txt)为按样本编号对应的分组、时间、地点等描述信息。EasyAmplicon项目中有准备好的demo数据用于测试分析流程是否可以正常工作(正对照),同时提供标准格式的参考模板,指导用户准备标准的输入数据。
新项目在准备好测序数据和元数据后,复制EasyAmplicon中的pipeline.sh至新项目文件夹。然后用RStudio打开pipeline.sh即可开始分析之旅。
2. 开始分析流程
参考Pipeline.sh中的代码,按说明设置工作目录(work directory)、脚本和数据库(EasyMicrobiome)位置等,在RStudio中逐行或逐段选择代码并运行(Run)即可完成整套分析流程。
主要数据分析步骤如下: - 合并双端序列并按样品重命名 - 引物切除和质量控制
- 序列去冗余并挑选代表序列 - 特征表生成和筛选 - Alpha多样性计算 -
Beta多样性计算 - 物种注释分类汇总 - 有参分析和功能预测 -
空间清理及数据提交 - STAMP和LEfSe软件输入文件准备
每步骤参数和结果的详细解读,详见
《易扩增子:易用、可重复和跨平台的扩增子分析流程》
## 常见问题 (FAQ)
pipeline.sh 中的常见问题
注:.sh脚本全部为markdown格式,使用有道Note或VSCode,阅读体验更佳。
## 更新日志 (Change log)
2023/3/11 1.18.1
解决备用下载链接失效问题?视频转移到B站链接,下载文件提供百度云链接。
2023/6/4 1.19
R和Rtools更新为4.3,RStudio更新为2023.03.1
## 引文 (Citation)
使用此脚本,请引用下文:
**Yong-Xin Liu**, Lei Chen, Tengfei Ma, Xiaofang Li, Maosheng Zheng, Xin Zhou, Liang Chen, Xubo Qian, Jiao Xi, Hongye Lu, Huiluo Cao, Xiaoya Ma, Bian Bian, Pengfan Zhang, Jiqiu Wu, Ren-You Gan, Baolei Jia, Linyang Sun, Zhicheng Ju, Yunyun Gao, **Tao Wen**, **Tong Chen**. 2023. EasyAmplicon: An easy-to-use, open-source, reproducible, and community-based pipeline for amplicon data analysis in microbiome research. **iMeta** 2: e83. https://doi.org/10.1002/imt2.83
版本所有 2016-2023 刘永鑫(Yong-Xin Liu) , 文涛(Tao Wen) , 陈同(Tong Chen)