浅析现阶段高通量测序中的拼接问题(2)
来源:学术堂 作者:原来是喵
发布于:2016-11-15 共3443字
(2)步骤
筛选reads:对reads进行检测,去除掉可能错误的reads---确定k值:k的值直接影响速度和精度。 K值较大时,精度有所提高,但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处 理DBG:根 据 确 定 的k值,做 出DBG,同时完成化简和修正---根据DBG,拼接成contig.
(3)优缺点
DBG算法在处理海量短reads的时候效果优秀,与现在测序技术的发展趋势相匹配。然而,由于k-mer的长度较短,此方法受重复序列、测序错误的影响较大。
(三)不同拼接软件的效果差异
不同的拼接软件在reads拼接过程中表现为三点:一是比起软件来说,reads质量对拼接结果影响更大;二是与标准序列的接近度随reads和拼接软件的不同有很大改变;三是各软件拼接的正确率差别很大,但与接近度的结果不一致。
四、Contigs的组装
与reads的拼接相比,contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多,所含信息较多。故可以较为准确的组装成scaffold
(一)组装过程的难点[4]
Contigs组 装 过 程 中 的 难 点 主 要 有 二。一 是contigs中 含有大量的重复序列,不易确定contigs之间的相对顺序;二是由于contigs由reads拼接而成,其中不 免 会 有 一 些 错 误,这 些 错 误 也 会 对contigs的组装产生干扰。
(二)方法
Contigs组 装的方法较reads拼 接而言较多,一般常用的有图论法和光学图谱法(Optical mapping)两种。
1.图论法[5]
图论法是比较传统的方法,与reads拼接有相似的地方。它以contigs作为节点,由相连的读取对(Linking reads pair)作为边,由此形成算图。
其一般步骤为:库的构建:构建出含有所有reads的 库---计算相连读取对之 间的距离,并由此计算gap的长度---把长度放在边上,作为算图的数据。
其理想的输出结果是一条scaffold序列,对应一条染色体,包含以正确顺序排 列 的contigs和contigs之间gap的长度。
2.光学图谱法[6]
光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断,此时DNA片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置,由此组装成正确的scaffold.
主要步骤为:将contigs放 置 在 光 学 图 谱上---修正光学图谱---做出contigs的连接图,由此决定最佳的contigs连接顺序。
光学图谱法的组装结果有着很高的覆盖率,巧妙运用光学图谱法可以获得很高的成本效益。
有研究表明,当与454平台获得的实验结果相结合的时候,光学图谱法可以迅速、价廉的得到排列好的定向的contigs组,由此可以产生一个将近完整的基因组。
(三)发展方向
Contigs组装过程的关键点 在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。
五、前景与展望
随着生物学研究向微观、向基因领域逐步延伸,高通量测序作为获得基因序列的主要方法,越来越受到重视,拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小,应对此变化,拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此,新一代的拼接技术会在准确率、覆盖率和速度上,作出超于现在拼接技术的改进。
参考文献:
[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1(1):38-69. doi:10.3390/genes1010038.
[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 (3):557 -567. doi:10.1101/gr.131383.111.
[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 (7):e46. doi:10.1093/nar/gkv002.
[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.
[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 (3):R42. doi:10.1186/gb -2014 -15-3-r42.
[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 (10):1229 -1235.doi:10.1093/bioinformatics/btn102.
相关标签: