基于NGS的微生物检测数据分析技术探究(4)
来源:生物化学与生物物理进展 作者:周子寒;彭绍亮;伯晓晨
发布于:2017-06-15 共15890字
b.“功能型”检测方法。
“功能型”检测方法采用的数据处理策略为A-C-D-E-F,包括 CaPSID、VirusSeq 和 VirusFinder.功能型检测方法的特点为相比于基础型检测方法,增加了下游分析环节,如 CaPSID 的对检测出的微生物序列进行可视化查看功能,以及 VirusSeq 和VirusFinder的病毒结合位点分析功能等。
CaPSID是2012年Boron[17]提出的微生物检测数据分析平台:CaPSID 的主要优势在于功能多样,不仅能够实现微生物检测,还能够通过转录组数据进行病原体微生物的可视化查看。CaPSID的检测流程为:对于样本数据,首先采用Bowtie2(环节C)与MRG进行比对,随后与HRG进行比对,之后根据比对结果分为病原体基因序列、人类基因序列、既比对到人类参考基因组又比对到微生物参考基因组上的重叠序列以及未比对成功序列。最后利用 Novoalign[42]对未比对成功序列和病原体基因序列进行下游分析(环节 F)。CaPSID 适用于检测未知物理化学性质的微生物,并且能够将其分类和可视化查看其基因水平的特征(G-C 含量,变异水平等)。
VirusSeq 是 2012 年 Anderson[18]提出的针对病毒基因序列检测的数据分析方法; VirusFinder 是2013年 Wang[19]提出的针对病毒基因序列检测的数据分析方法。两种方法思路大致相同,首先将样本数据与 HRG 进行比对,清除比对成功的部分序列;之后将剩余基因序列与 MRG 进行比对,提取出比对成功的基因序列进行de-novo拼接,将拼接成功的基因序列再次与 MRG 进行比对,最后输出比对成功的病毒基因序列。VirusSeq 和 VirusFinder均提供了检测病毒结合位点的下游分析功能(环节F),具体实现为通过SVDetect[43]对单核苷酸多态性进行分析,判断病毒插入结合位点的信息。两者 的 不 同 在 于 序 列 比 对( 环 节 C) 过 程 中 ,VirusFinder 采用的序列比对方法为 Bowtie2,速度较VirusSeq 所 采 用 的 MOSAIK 有 所 提 升 .VirusSeq 和 VirusFinder 只能进行病毒基因序列的检测,适用于处理由病毒引发的疫情,测序数据为RNA的微生物检测问题。
c.“速度型”检测方法。
“速度型”检测方法采用的数据处理策略为A-B-C-D-E,包括 READSCAN 和 Kraken.速度型检测方法的特点为相比与基础型检测方法,增加了比对算法优化环节, 包括 READSCAN 的并行数据划分法和 Kraken 的精简数据库法。
READSCAN是 2013 年 Naeem[20]提出的微生物检测程序。该方法专注于解决检测数据分析方法的速度和可扩展性问题,提出了并行数据划分法。对于样本数据,首先分配到多核 CPU 上(环节 B),随后分别与 HRG、MRG 进行比对,其中在环节 C 采用的软件为SMALT,通过对比对结果的分值进行分析来确定reads属于人类基因序列还是微生物基因序列。READSCAN分为两个版本,用于处理正常基因序列数据的normal版和用于处理高变异基因序列数据的high-sensitivity版。READSCAN数据分析方法适用于在大规模计算集群上检测突发疫情中的已知或未知微生物。
Kraken是2013年Wood[21]提出的的宏基因组序列分类软件,能够快速对宏基因样品中的DNA序列进行分类,因此可以进行微生物检测。Kraken在序列比对环节(环节 C)采用精确 k-mer 匹配和精简数据库的方法(环节 B),忽略基因变异,采取精确匹配;并且建立了专用数据库与k-mer匹配相配合,极大地提高了检测速度。Kraken 分为两个版本:内存开销较大的 normal 版和将内存开销限制为 2Gb 以内的 mini 版。Kraken 速度极快,精度较低,适用于做微生物检测的预处理。
CS-SCORE是 2015 年 Haque[22]提出的用于快速鉴定和去除宏基因组数据中的人类基因数据的数据分析方法。CS-SCORE 专注于解决检测数据分析方法的速度以及计算资源的问题,提出了 cs-score值代替法(环节 B)。对于样本数据,首先进行四核苷酸频率计算,并与经过聚类的序列数据库进行比对(环节 C),比对结果相似性超过预先设定的比对阈值则认为属于病原体基因序列。将相似性未超过阈值的部分进行向量化,计算cs-score 值。随后,根据cs-score 值将序列和经过同样方法处理的人类基因序列分别分为31 个子集,再通过 bwa 进行比对(环节 C),最后输出未比对成功的序列即为未知微生物基因序列。其优点在于速度较快,并且所需的内存量较小,仅为2~2.5GB.CS-SCORE 适用于在小规模运算平台上处理突发疫情中的微生物检测问题。
d.“完整型”检测方法。
“完整型”检测方法采用的数据处理策略为A-B-C-D-E-F,包括 SURPI、RIEMS、Pathosphere、org、CS-SCORE、VERSE 和 VIP.完整型检测方法既包含了下游分析环节,又包含比对方法优化环节。 如 cs-score 基 于 CS-SCORE 的 比 对 算 法 ,Pathosphere.org基于网站的分析方法等等。对于微生物检测来说,该类检测方法提供了完整的分析步骤。
SURPI 是 2014 年 Naccache[23]提出的基于云平台的微生物检测数据分析方法,SURPI 专注于解决微生物检测的速度问题,采用的比对软件为SNAP和RAPSearch,其处理流程为,首先对样本数据进行质量控制(环节A)得到clean data,随后分为两种模式。第一种为快速模式,采用SNAP软件将clean data与MRG包括细菌参考基因组和病毒参考基因组进行比对(环节C),比对成功直接生成结果报告。第二种为综合模式,首先将clean data与NCBI nt完整参考数据库进行比对(环节C),之后通过ABySS[44]+Minimo[46]软件进行de-novo拼接组装(环节E),最后通过RAPSearch软件与病毒蛋白质数据库进行比对,输出结果(环节 F)。SURPI 的优点在于速度极快,由于采用SNAP 和 RAPSearch比对软件,可以在10 ~30 min 完成对 7 ~50Mreads 的判定。SURPI 适用于处理大规模疫情中的已知微生物的检测问题。
RIEMS 是 2015 年 Scheuch[24]提出的微生物检测数据分析方法。RIEMS 专注于解决微生物检测的精度问题。其处理流程为,首先对输入宏基因组数据进行质量控制(环节 A),随后利用 BLAST 将读入的 reads 子集与已知微生物种群进行比对(环节C)。之后对未能检测的序列进行序列组装(环节 E),组装成功的利用blast 与微生物参考基因组进行比对,未组装成功的利用Megablast 和 Blastn 再与微生物基因组进行比对(环节 C)。下游分析过程(环节F)利用Megablast 和 Blastn 的“without DUST”[46]模式将读入未比对成功序列进行比对,并对未能比对成功的reads 和 contigs 进行翻译,最后利用Blastp[47]对生成的Open Reading Frames(ORF)进行分析。RIEMS 适用于对转录组数据进行高精度分析的过程应用。
Pathosphere.org 是 Kilianski 等[25]提出的基于网站的病原体检测数据分析方法平台。允许用户将测序样品传输至云平台,然后在线分析产生结果报告。其处理流程为,对于样本数据,首先进行质量控制以及宿主核酸序列噪声去除,随后进行一个循环---第一步为 de novo 拼接,将去除噪声后的reads 拼接成 contigs,第二步为与临近物种进行比对判断(环节 C)和 SNP 分析(环节 F),第三步为将没能成功比对的reads 重新拼接,对于这三步进行循环操作直至序列比对结果达到设定的阈值。Pathosphere.org 在 环 节 C 采 用 的 比 对 软 件 为Megablast.由于 Pathosphere.org 基于云平台设计,无需环境配置,在不同平台上都可使用。
VERSE 是 2015 年 Wang[26]提出的微生物检测数据分析方法。其处理流程为:首先将输入的样本数据与HRG进行比对(环节C),未比对成功的序列视为病毒序列。随后将假定的病毒序列与MRG进行比对,并通过这一环节寻找SNP,利用找到的SNP调整MRG.将调整后的MRG与HRG连接,生成一个伪染色体,随后利用伪染色体与原输入数据进行比对,从而判断病毒结合位点和染色体内结构变异(Structural Variants,SVs),之后利用找到的SVs调整HRG.最后将调整后的HRG和调整后的MRG连接生成一个新的参考基因组。将输入病毒序列与新参考基因组进行比对,可以分别检测出病毒基因和人类基因内的病毒结合位点和结构变异(环节 F)。VERSE 适用于处理病毒引发的疫情中的微生物检测问题。
原文出处:周子寒,彭绍亮,伯晓晨,李非. 基于高通量测序技术的微生物检测数据分析方法[J]. 生物化学与生物物理进展,2017,(01):58-69.
相关标签: