本文最后更新于 296 天前,如有失效请评论区留言。
转载自微信公众号 数信院
原文链接 https://mp.weixin.qq.com/s/drzZIm5sXQh058t42I03UA
重测序
- 核心概念:
- 重测序是指对一个已知参考基因组的物种的多个个体进行基因组测序。
- 它的目标不是从头组装一个全新的基因组,而是将测序得到的短序列片段(reads)比对(Align) 到已有的高质量参考基因组上。
- 通过这种比对,可以高效、准确地识别个体基因组与参考基因组之间的差异,主要是单核苷酸多态性、插入缺失、结构变异等。
- 关键特点:
- 依赖参考基因组: 必须有一个高质量、完整的参考基因组作为“蓝图”。
- 高效经济: 相比从头测序(De novo Sequencing),重测序的成本更低、速度更快、数据分析更成熟,因为它避免了复杂的基因组组装过程。
- 专注于变异检测: 主要目标是发现个体或群体间的遗传变异。
- 高通量: 通常同时对大量个体进行测序。
- 主要应用:
- 发现遗传变异: 在全基因组水平上大规模鉴定 SNP、InDel、CNV、SV 等变异位点。
- 构建遗传图谱/单倍型图谱: 基于变异数据构建高密度的遗传图谱或单倍型区块图谱。
- 关联分析的基础: 为全基因组关联分析提供海量的基因型数据。
- 进化与选择分析: 比较不同群体或物种间的变异模式,研究进化历史和自然选择。
- 疾病研究: 寻找与复杂疾病或孟德尔遗传病相关的致病或易感基因变异。
- 动植物育种: 进行重要性状的基因定位、分子标记辅助选择、基因组选择。
- 群体遗传结构分析: 提供分析群体结构、遗传多样性、基因流等所需的核心数据。
- 常见类型:
- 全基因组重测序: 对个体的整个基因组进行测序。提供最全面的变异信息,但成本相对较高。
- 外显子组重测序: 只对基因组中编码蛋白质的外显子区域进行测序。成本较低,专注于可能直接影响蛋白质功能的变异,常用于疾病研究。
- 简化基因组测序: 如 RAD-seq, GBS 等。通过酶切等方法只对基因组特定区域(通常是散布的位点)进行测序。成本最低,适用于大样本量的群体遗传研究,但信息量不如前两者全面。
群体遗传学
- 核心概念:
- 群体遗传学是研究生物群体中遗传变异的分布、频率及其随时间和空间变化规律的学科。
- 它关注的核心问题是:遗传变异是如何在世代传递中产生、维持、丢失的?哪些进化力量(如突变、选择、遗传漂变、基因流、非随机交配)塑造了群体内和群体间的遗传变异模式?
- 它连接了微观的分子遗传学(基因和变异)与宏观的进化生物学(物种形成和适应)。
- 核心研究内容与问题:
- 遗传多样性: 一个群体内遗传变异的丰富程度如何?如何测量(如核苷酸多态性 π、杂合度 He)?不同群体、不同物种间多样性有何差异?为何存在这些差异?
- 群体结构: 一个大群体是否由多个遗传上有差异的亚群体组成?个体间的亲缘关系如何?是否存在地理隔离导致的分化?
- 群体历史: 群体的有效大小如何?历史上是否经历过扩张、瓶颈(种群数量急剧减少)或迁徙事件?这些事件如何影响当前的遗传变异模式?
- 基因流: 不同群体或亚群体之间个体迁移和基因交流的程度如何?地理距离、屏障如何影响基因流?
- 自然选择的作用: 如何检测自然选择在基因组上留下的痕迹?是纯化选择清除有害突变,还是正向选择驱动有利等位基因频率上升(选择性清除)?或是平衡选择维持多态性?选择作用在编码区还是调控区?
- 遗传漂变: 随机因素(尤其在小群体中)如何导致等位基因频率的无方向性波动,甚至导致等位基因的固定或丢失?
- 近交与杂交: 近交如何影响群体遗传负荷(有害突变积累)和适合度?杂交如何影响群体遗传结构?
- 理论基础:
- 哈迪-温伯格平衡定律: 描述在理想群体(无限大、随机交配、无突变、无选择、无迁移)中,等位基因频率和基因型频率在世代间保持恒定。是研究进化力量作用的基准。
- 中性理论: 认为分子水平上的大部分变异是中性或近中性的(对适合度无影响),其频率变化主要受遗传漂变支配。为检验自然选择提供了零模型。
- 溯祖理论: 通过追踪当代基因序列在历史上何时拥有共同祖先来研究群体历史和演化关系。

软件安装
质控工具
- fastp:直接通过conda安装,
conda install -c bioconda fastp。 - seqtk:可从GitHub下载编译,
git clone https://github.com/lh3/seqtk && cd seqtk && make。
比对工具
- bwa:conda安装,
conda install -c bioconda bwa。 - hisat2:
conda install -c bioconda hisat2。 - minimap2:
conda install -c bioconda minimap2。
格式转换与处理
- samtools:
conda install -c bioconda samtools,注意依赖项冲突可通过指定版本解决。 - bcftools:与samtools同渠道安装,
conda install -c bioconda bcftools。
变异检测与结构分析
- 变异检测
- gatk4:下载jar包,
wget https://github.com/broadinstitute/gatk/releases/download/4.2.3.0/gatk-4.2.3.0.zip,解压后直接使用。 - picard:同样通过jar包安装,
wget https://github.com/broadinstitute/picard/releases/download/2.26.5/picard.jar。
- gatk4:下载jar包,
- 结构变异检测
- sniffles:
pip install sniffles或conda install sniffles=2.6.2。 - lumpy-sv:需从源代码编译,依赖Python和C++环境,具体步骤参考官网。
- sniffles:
- 拷贝数变异
- cnvnator:下载源代码编译,需安装依赖项如HDF5。
群体遗传分析工具
- 连锁不平衡与多样性
- plink:
conda install -c bioconda plink。 - vcftools:
conda install -c bioconda vcftools。 - poplddecay:
conda install -c bioconda poplddecay。
- plink:
- 系统发育树构建
- fasttree:
conda install -c bioconda fasttree。 - iqtree:
conda install -c bioconda iqtree。 - raxml-ng:
conda install -c bioconda raxml-ng。
- fasttree:
- 群体结构与进化
- admixture:从官网下载二进制文件,解压后添加到PATH。
- treemix:需编译安装,依赖Eigen库。
- selescan:
conda install -c bioconda selescan。
注释与功能分析
- 变异注释
- annovar:下载后配置环境变量,需Perl环境。
- snpeff:下载jar包,
java -jar snpEff.jar download [物种]。
- 注释工具链
- vcflib:从GitHub编译,
git clone https://github.com/ekg/vcflib && cd vcflib && make。
- vcflib:从GitHub编译,
gwas与统计工具
- 关联分析
- gcta:
conda install -c bioconda gcta。 - emmax:从官网下载二进制文件。
- tassel:
conda install -c bioconda tassel。
- gcta:
- R包与可视化
- qqman:
install.packages("qqman")。 - CMplot:
install.packages("CMplot")。 - rMVP:
install.packages("rMVP")。
- qqman:
注:数信院服务器已安装好所有软件和环境配置
数据准备
1.自己的测序数据
2.下载公共数据库的数据SRP062811