# EasyAmplicon **Repository Path**: yongxinliu/EasyAmplicon ## Basic Information - **Project Name**: EasyAmplicon - **Description**: An easy using, open-resource, reproducible, and community-based pipeline for amplicon data analysis in microbiome - **Primary Language**: Shell - **License**: Not specified - **Default Branch**: master - **Homepage**: https://github.com/YongxinLiu/EasyAmplicon - **GVP Project**: No ## Statistics - **Stars**: 12 - **Forks**: 4 - **Created**: 2021-12-19 - **Last Updated**: 2025-11-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 易扩增子 (EasyAmplicon) 英文版见(English Version in) README.md 版本:2.01 更新日期:2025/09/16 简单易学易用、开源、可重复且社区支持的扩增子数据分析流程 第一次使用参考`安装`段落下载并安装流程及依赖关系。使用RStudio打开`EasyAmplicon/pipeline.sh`即可逐行完成扩增子分析。 ## 简介 (Introduction) 文件描述: - Readme.md \# 英文版帮助 - Readme_cn.md \# 中文版帮助 - pipeline.sh \# Windows或Linux版命令行分析流程 - pipeline_mac.sh \# MacOS版命令行分析流程 - result/ \# 示例结果(正对照) - result/Diversity.Rmd \# 交互式多样性可重复分析代码,可编译为HTML网页或Word文档报告 主要功能: - 分析和可视化微生物组数据,尤其是16S rDNA扩增子测序 - 从原始数据到特征表的端对端 - 支持20余种分析方法,并生成出版级图表 - 在普通个人电脑上3小完成示例项目 - 中、英文双语帮助文档,中文视频教程支持确保可重复 ![image](https://github.com/YongxinLiu/EasyAmplicon/blob/master/result/Figure1.jpg) **图1. 易扩增子分析双端扩增子数据的流程** ![image](https://github.com/YongxinLiu/EasyAmplicon/blob/master/result/Figure2.jpg) **图2. 结果的部分可视化示例** ## 安装(Install) 系统要求 System requirement: Windows 10+ / Mac OS 10.12+ / Ubuntu 20.04+ 安装视频教程:https://www.bilibili.com/video/BV1Cb411f7La/ ### 依赖软件环境(Install Dependency) 请安装与你操作系统一致的软件 - R语言环境R 4.x.x,支持R代码运行:,推荐下载Rtools实现包的源码安装 - R语言开发环境RStudio 2023.xx.x,用于执行流程: - STAMP v2.1.3 特征表统计和分析图型界面软件 - (可选,仅Windows用户)Git Bash命令行环境的Git for Windows 2.xx.x,支持在Windows系统中运行Shell语言,下载并安装最新版: 以最常用的Windows系统(87.5%)为例,你可以快速下载上面的软件安装包:[Git for Windows](https://gitforwindows.org/)、[R](https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/base/)、[RStudio](https://posit.co/download/rstudio-desktop/)、[STAMP](https://github.com/dparks1134/STAMP/releases/download/v2.1.3/STAMP_2_1_3.exe),[合集见百度网盘db/win目录](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315)。 - (可选,推荐)R包的快速安装 在R语言的统计和可视化中会使用超过500个R包,安装不仅费时费力,而且经常出错或依赖其他编绎工具。为方便大家使用,我们提供了编绎好的R包合集下载,如 [Windows版](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315)、[Mac版](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 )。你可以下载解压后,将 `4.3` 目录移动至 `C:\Users\[$UserName]\AppData\Local\R\win-library\`中即完成安装。 # 注意:如显示缺少某个R包,可以通过以下方法单独安装 # 例如DADA2包托管在Bioconductor上,需要通过BiocManager来安装。 # 请打开您的R或Rstudio,在控制台(Console)中输入并执行以下命令: # 首先,安装Bioconductor的核心管理工具 BiocManager if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") # 然后,通过 BiocManager 安装 DADA2 BiocManager::install("dada2") # 此外,一些R包可以通过常规方式安装,比如需要 argparse 包来解析命令行参数,就可以使用: install.packages("argparse") 安装各类R包时,控制台可能会出现大量的编译和安装信息,请耐心等待其完成。如果遇到问题,请根据提示信息检查您的R语言环境或网络连接。 ### 安装易扩增子2 (Install EasyAmplicon 2) - 易扩增子流程EasyAmplicon,包括分析流程代码、测序数据和示例结果(分析的正对照), - 易微生物组EasyMicribome,提供易扩增子流程依赖的常用软件、脚本和数据库, 下载以上项目至C或D盘,并解压。以下提供三种下载方式可选(让你永远留有后手) - 方法1. 网页下载。访问项目主页,点击 `Code` -- `Download`,选择下载位置,开始下载 - 方法2. git命令行下载。直接生成目录,无需解压。`git clone https://github.com/YongxinLiu/EasyAmplicon`和`git clone https://github.com/YongxinLiu/EasyMicrobiome`。 注:提示`fatal: unable to access`可能只是网络问题,重试或改天重试一般可解决,或找代理或朋友帮忙下载。 - 方法3. 直接从国内百度网盘链接中db/soft目录下载: [EasyAmplicon](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 )、[EasyMicrobiome](https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 ) ### 安装 Conda (Conda Installation) # 下载最新版miniconda3 v24.9.2 , 安装日期2024/11/12, 141.47 Mb wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh # 安装,-b批量,-f无提示,-p目录,许可协议打yes bash Miniconda3-latest-Linux-x86_64.sh -b -f # 激活,然后关闭终端重开,提示符前出现(base)即成功 ~/miniconda3/condabin/conda init source ~/.bashrc # 查看版本,conda 25.5.1, python 3.13.5 conda -V # 25.5.1 python --version # 3.13.5 # 添加常用频道 conda config --add channels bioconda # 生物软件 / Bioconda for bioinformatics software conda config --add channels conda-forge # Highest priority / Conda-forge has the highest priority # conda默认配置文件为 ~/.condarc 查看配置文件位置 # 你使用的是新版本 Conda(≥24),它要求用户必须手动接受各个源的服务条款(ToS),否则不能使用对应的频道。 # conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main # conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r # mamba是用于管理环境的 CLI 工具。相比于 conda,mamba 是用 c++重写了 conda 的部分功能,运行效率显著提高,可以进行并行的下载,使用 rpm 包管理工具中的 libsolv,可以更快的解决环境依赖问题。 conda install mamba -y mamba install pandas -y mamba install conda-pack -y #conda config --set channel_priority strict #设置严格的仓库优先级(最好不要使用)/ Set strict channel priority (better not to use) #conda config --set channel_priority flexible #禁用仓库优先级 / Disable channel priority conda config --show-sources # 查看虚拟环境列表 conda env list 更多conda中文安装使用教程参考:[Nature Method:Bioconda解决生物软件安装的烦恼](https://mp.weixin.qq.com/s/SzJswztVB9rHVh3Ak7jpfA) [一文掌握Conda软件安装:虚拟环境、软件通道、加速solving、跨服务器迁移](https://mp.weixin.qq.com/s/tKAU09_w7Cu7khA9M2EGEQ) #### Easyamplicon 2的创建安装及环境激活 **注:直接安装、下载解压安装,二选一。一种方法不成功,尝试另一种。** cd EasyAmplicon2 ## 方法1.直接安装 conda env create -f EasyAmplicon2.yaml conda activate easyamplicon2 ## 方法2.下载安装(推荐) ### 指定conda文件名 s=easyamplicon2 soft=~/miniconda3 ### 下载安装 百度网盘下载链接:Baidu Net Disk:https://pan.baidu.com/s/1Ikd_47HHODOqC3Rcx6eJ6Q?pwd=0315 文件路径:db/amplicon/easyamplicon2.tar.gz ### 指定安装目录 mkdir -p ${soft}/envs/${s} tar -xvzf ${s}.tar.gz -C ${soft}/envs/${s} ### 启动环境 conda activate ${s} ### 初始化环境 ### easyamplicon2环境包含了大部分分析软件 conda unpack ### (可选)扩展软件和数据库 - Rtools:用于从源码进行R包的安装,windows版本见:https://cran.rstudio.com/bin/windows/Rtools/ - 16S数据库:16S常用RDP/SILVA/GreenGene/EzBioCloud数据库进行物种注释,默认下载了RDP和EzBioCloud。可以从上述数据库官网下载并整理为USEARCH使用的格式,此处推荐从[USEARCH官网](http://www.drive5.com/sintax)下载USEARCH兼容格式的数据库。默认流程使用体积小巧的RDP v18训练集数据库 (rdp_16s_v18.fa.gz),并已保存于EasyMicrobiome/usearch目录中。可选GreenGenes 13.5 (gg_16s_13.5.fa.gz)和SILVA (silva_16s_v123.fa.gz) 数据库,从[USEARCH官网](http://www.drive5.com/sintax)根据需要下载并保存于usearch目录中。此外,如果要开展PICRUSt和Bugbase功能预测分析,还需要使用GreenGenes数据库13.5中按97%聚类的OTU序列 (己保存于流程gg目录中97_otus.fasta.gz)。该数据源于[GreenGenes官方](ftp://greengenes.microbio.me/greengenes_release),解压后选择其中的97_otus.fasta保存于gg目录下 - ITS数据库:研究真菌或真核生物采用转录间隔区 (Intergenic Transcribed Spacer) 测序,需要使用UNITE数据库,目前最新版已经保存于EasyMicrobiome\usearch目录。如流程中数据库没有及时更新,可在UNITE官网 () 下载适合USEARCH的最新版注释数据库。官方数据库存在格式问题,详细常见pipeline.sh中附录常用问题 ## 快速运行(Quick Start) 使用视频教程:https://www.bilibili.com/video/BV1is4y157Ms/ 1. 准确输入数据:典型的扩增子测序起始文件包括测序数据和元数据两类。 测序数据(\*.fq.gz)为seq/目录中的成对fastq/fq文件,通常采用.gz的压缩格式保存节省空间。元数据(metadata.txt)为按样本编号对应的分组、时间、地点等描述信息。EasyAmplicon项目中有准备好的demo数据用于测试分析流程是否可以正常工作(正对照),同时提供标准格式的参考模板,指导用户准备标准的输入数据。 新项目在准备好测序数据和元数据后,复制EasyAmplicon中的pipeline.sh至新项目文件夹。然后用RStudio打开pipeline.sh即可开始分析之旅。 2. 开始分析流程 参考Pipeline.sh中的代码,按说明设置工作目录(work directory)、脚本和数据库(EasyMicrobiome)位置等,在RStudio中逐行或逐段选择代码并运行(Run)即可完成整套分析流程。 主要数据分析步骤如下: - 合并双端序列并按样品重命名 - 引物切除和质量控制 - 序列去冗余并挑选代表序列 - 特征表生成和筛选 - Alpha多样性计算 - Beta多样性计算 - 物种注释分类汇总 - 有参分析和功能预测 - 空间清理及数据提交 - STAMP和LEfSe软件输入文件准备 每步骤参数和结果的详细解读,详见 《易扩增子:易用、可重复和跨平台的扩增子分析流程》 ## 常见问题 (FAQ) pipeline.sh 中的常见问题 注:.sh脚本全部为markdown格式,使用有道Note或VSCode,阅读体验更佳。 ## 更新日志 (Change log) 2023/3/11 1.18.1 解决备用下载链接失效问题?视频转移到B站链接,下载文件提供百度云链接。 2023/6/4 1.19 R和Rtools更新为4.3,RStudio更新为2023.03.1 ## 引文 (Citation) 使用此脚本,请引用下文: **Yong-Xin Liu**, Lei Chen, Tengfei Ma, Xiaofang Li, Maosheng Zheng, Xin Zhou, Liang Chen, Xubo Qian, Jiao Xi, Hongye Lu, Huiluo Cao, Xiaoya Ma, Bian Bian, Pengfan Zhang, Jiqiu Wu, Ren-You Gan, Baolei Jia, Linyang Sun, Zhicheng Ju, Yunyun Gao, **Tao Wen**, **Tong Chen**. 2023. EasyAmplicon: An easy-to-use, open-source, reproducible, and community-based pipeline for amplicon data analysis in microbiome research. **iMeta** 2: e83. https://doi.org/10.1002/imt2.83 版本所有 2016-2023 刘永鑫(Yong-Xin Liu) , 文涛(Tao Wen) , 陈同(Tong Chen)