摘 要: 在自然界中,生物DNA的碱基序列包含着生物体中绝大多数的遗传信息,破译这些碱基序列就成了探索生命奥秘的至关重要的课题。随着第二代测序技术(Next-Generation Sequencing,NGS)的发展和应用,其弊端正在显现,而第三代单分子测序技术在一定程度上可以弥补NGS技术在应用中的一些不足。本文阐述了第三代单分子测序技术的2个测序原理,介绍其在基因组、转录组、表观遗传学等方面的应用现状,同时对其未来发展进行展望。
关键词: 第三代测序技术; 原理; 生物; 应用;
Abstract: In nature, the base sequence of biological DNA contains most of the genetic information in the organism, so how to decipher these base sequences becomes a crucial issue in exploring the mysteries of life. With the development and application of Next Generation Sequencing Technology (NGS), some of his drawbacks are emerging. The third-generation single-molecule sequencing technology can make up for some shortcomings in the application of next-generation sequencing technology to a certain extent. This article describes the two sequencing principles of the third-generation single-molecule sequencing technology and introduces its application in the research of genome, transcriptome, epigenetics, etc., and looks forward to its future development direction.
Keyword: The third generation sequencing technology; Principle; Biology; Application;
随着生物信息学的快速发展,DNA测序技术在不断创新。第一代测序技术,即Sanger的链终止方法[1]于1977年登上历史舞台,其主要应用于人类基因组(HGP)计划,人们耗时15年花费了30亿美元完成了首个人类基因组图谱。尽管一代测序读长可达1 000 bp、精确度高达99.999%,但测序通量低、成本高等缺点限制了它的大规模应用。直到21世纪初,以高通量为主要特点的第二代测序技术(又称为下一代测序技术,Next-Generation Sequencing,NGS)的开发,如Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLID技术[2],使成本从HGP的1亿美元1个基因组下降到2015年底的1 000美元1个基因组,并且测序时间大幅缩短,成功地把DNA测序引入到了高通量测序时代,同时也把研究方向从单个基因位点扩展到全基因组研究的水平层面,并从人类应用扩展到各种生物的研究中。然而由于第二代测序技术存在读长过短、引入PCR扩增错误、具有GC偏好性等缺点,不能够完全满足人们对于全基因组测序的需求。随着人们继续研究高通量测序技术,以单分子测序为技术特点的第三代测序——He-licos单分子测序仪、Pacific Bioscience的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子测序技术登上了DNA测序技术的舞台。与第二代测序的核心原理,即边合成边测序相比,第三代测序技术的特征在于单分子测序,即不需要PCR扩增,这就避免了PCR扩增引入错误,同时第三代测序具有更高的通量和测序效率。
1、 第三代测序技术的方法及其原理
1.1、 Pacific Bioscience SMRT技术
从测序手段来看,PacBio测序是基于光信号的三代测序技术,PacBio测序可在目标DNA分子复制的过程中捕获序列信息(即边合成边测序)。PacBio测序使用一种被称为SMRTbell的模板,这是一个通过将发夹接头序列连接到目标双链DNA分子两端而形成的单链环状DNA分子。当SMRTbell通过被称为SMRT cell的芯片上时,SMRTbell会扩散到被称为零模式波导(Zero-Mode Waveguide,ZMW)的测序单元中,每个SMRT cell中含有15万个零模式波导管。ZMW是一种直径仅为几十纳米的纳米孔,每个ZMW底部都固定有聚合酶,可以与SMRTbell的任一发夹接头序列结合并开始复制。SMRT cell中添加有4种不同荧光基团的核苷酸,不同荧光基团被激活时会产生不同的发射光谱。当一个碱基与聚合酶结合时,便会产生一个光脉冲被记录下来,根据光的波长和峰值便能够识别这个碱基[3]。PacBio测序的一个关键是将反应信号与游离碱基的荧光背景区别出来,因为ZMW的孔径小于波长,从底部打上去的激光不直接通过孔径,但是可以在孔径处发生光的衍射,仅仅能够照射ZMW的底部区域。而DNA聚合酶就锁定在底部的这个区域,只能被碱基携带的荧光团激活并检测到发光,从而大大减少了背景荧光的干扰。PacBio测序的另一个关键是聚合酶的活性,它决定了测序的长度。DNA聚合酶的活性会在激光照射下逐渐减弱,因此不能无限长度的进行合成反应,所以DNA链的测序长度是有限的。此外当存在如甲基化之类的碱基修饰时,相邻碱基的测序时间会变长,因此可以通过测定相邻2个碱基的测序时间来检测碱基修饰。碱基携带的荧光基团可以被激活并被检测到,从而减少背景荧光的干扰。PacBio的测序速度很快,然而,这种测序方法的错误率(可达到15%)远高于二代测序,不过因为出错随机,可通过增加测序深度来有效纠正测序错误。
1.2 、纳米孔单分子测序技术
与基于光信号的PacBio测序不同,纳米孔单分子测序技术(The Single-Molecule Nanopore DNA Sequencing)的实质是利用电信号测序的技术,其原理是纳米孔内有共价结合的分子接头,当单个碱基或DNA分子通过纳米孔通道时,会使电荷发生变化,从而短暂地影响流过纳米孔的电流强度。由于化学结构的差异,A、C、G和T这4种不同碱基通过纳米孔时会产生不同强度的电流,通过灵敏的电子设备可以检测到电流变化,进而可以识别DNA链上的碱基完成测序。与上述PacBio测序方法相比,纳米孔单分子测序技术处理样品非常简单,也不需要脱氧核糖核苷酸,这也表明该测序方法的便宜性。然而,纳米孔单分子测序技术也有缺陷,由于DNA通过纳米孔极其迅速,极可能引起电流特征性变化不明显,从而降低测序的准确度,故将单个核苷酸通过孔的速度降低则成为了这个技术拟解决的难题,与PacBio测序类似,纳米孔单分子测序的碱基错误率也远高于二代测序。
2 、第三代测序技术的应用
2.1、 在基因组方面的应用
2.1.1、 从头组装
获得一个物种的基因组对相关研究者具有十分重要的意义,二代高通量测序的发展使得诸多物种的基因组从头组装(De novo assembly)成为现实。然而由于许多生物学和技术上的原因,特别是重复或杂合序列、测序错误、嵌合读码、读长不足或读码覆盖不全或有偏差等因素[4],造成高质量的基因组组装具有很大挑战性。在这些限制因素中,最突出和最具挑战性的便是重复序列,二代测序技术因为读长过短(只有50~500 bp)在鉴别重复元素等方面存在固有的局限性。三代测序的长读长(10 kp以上)克服了二代测序的这些限制,因此利用三代测序产生的长读长进行从头组装成为三代测序的主要应用方面[3]。
2016年,Shi等[5]用单分子实时(SMRT)测序对中国人个体HX1进行测序,构建物理图谱,生成2.93 Gb的从头组装数据集,为中国个体生成了第一个近乎完整的从头组装基因组,该基因组填补了人类参考基因组GRCh38中274个(28.4%)空白,与GRCh38相比,发现了12.8 Mb的HX1特异性序列,包括在先前报道的亚洲人基因组中不存在的4.1 Mb序列。2018年,Adam Ameur等[6]也使用SMRT测序对2个瑞典人基因组进行了重新组装,研究发现每个个体中有超过10 Mb的序列从人类参考基因组GRCh38中缺失,而且大约有6 Mb的新序列是与中国人的个人基因组(HX1)共有的。这些研究结果表明了GRCh38参考基因组还不完整,同时证明了三代测序在复杂基因组的组装上具有独特的优势,能够发现诸多二代短读长测序遗漏的基因组信息。
目前三代测序除了应用在人类基因组的从头组装上,也已经用在水稻[7]、小麦[8]、猪[9]、鸡[10]、牛[11]、羊[12]等具有重大经济价值的动植物基因组的从头组装上。
2.1.2、 结构变异检测
结构变异(Structural Variation,SV)包括拷贝数变异、插入、删除、易位以及这些事件的组合等,SV已被证明对许多物种的进化、基因组疾病、基因调控和其他表型等有重大影响[13]。与单核苷酸多态性(SNPs)相比,SV的情况复杂得多,因此更难以检测和识别。由于二代测序长度较短,检测出的SV具有低灵敏度和假阳性率高的特点,对这些复杂SV的研究有很大的局限性,尤其是涉及重复区域的结构变异研究。而三代测序产生的读长平均长度远大于二代测序产生读长,大大有利于结构变异的检测。Couldrey等[14]利用PacBio长读长测序和Illumina测序检测和评估新西兰奶牛的拷贝数变化,研究表明这种长读长测序对于CNV的检测是一个理想的平台,将最终有助于改进基因组预测。
全外显子组测序(Whole Exome Sequencing,WES)目前被广泛应用于疑似或临床证实有遗传疾病的患者的基因检测。但是目前Illumina的短读长测序技术在临床上诊断为孟德尔病(单基因病)的患者中,有很大比例(60%~70%)的患者在WES上得到阴性结果[15]。即从临床WES中只能发现一种杂合致病变异,可能原因是从短读测序技术检测致病结构变异(SVs)的能力有限。Miao等[15]应用Nanopore测序对一名未能通过WES找到病因的患有糖原储存型疾病(常染色体隐性病,由G6PC基因双等位基因突变引起)的患者进行全基因组测序,发现一个7.1 kb的缺失,其覆盖了另一个等位基因上的2个外显子,这表明复杂的结构变异可能解释了隐性疾病中WES缺失第二个致病等位基因的部分情况。缺失的2个断点都在Alu元素内,于是Miao等设计了基于断点的Sanger测序和定量PCR分析,以用来对患者家庭计划生育的另一个孩子进行胚胎植入前遗传诊断(PGD),在通过体外受精后获得的4个胚胎中,经PGD后将1个G6PC基因无缺失的胚胎进行移植。经产前诊断、产后诊断及出生后情况证实无疾病症状。该研究第一个使用三代长读长测序来识别外显子测序阴性患者中具有因果关系的复杂结构变异,从而使成功的个性化PGD成为可能。同时该研究表明,三代测序为通过短读测序发现未确诊或被误诊患者的基因变异提供了一种手段,并有助于提高临床诊断的效率。
2.2、 在转录组方面的应用
2.2.1、 全长转录组测序(Iso-Seq)
短读长RNA测序(RNA-seq)技术的发展大大提高了基因表达的定量效果。然而这个方法的主要局限性之一便是由于读长很短,根本无法解析最复杂的基因或包含许多类似转录本形式的基因家族的结构[16]。Iso-Seq是基于SMRT测序技术,凭借超长读长的优势,无需打断RNA分子,直接对反转录的全长cDNA测序,即可得到从5’末端到3’PolyA尾的高质量全长转录本序列,从而对同源异构体、可变剪接、融合基因、同源基因、超家族基因、等位基因表达等进行精确分析,而且Iso-Seq允许在不使用参考基因组的情况下直接测序10 kb以下的转录本[3]。
选择性剪接是真核生物中广泛使用的一种增加蛋白原种类的机制。二代短读长测序在定性基因表达和事件检测方面是有效的。然而,其准确检测剪接基因变异的能力有限。Shi等[5]对HX1转录组的长读长测序中揭示了新的未在GENCODE中注释的、被短读RNA-Seq遗漏的剪接基因。Chen等[17]同样采用Iso-Seq技术对家兔进行全转录组分析,从14 474个基因座中获得了36 186个高信度转录本,其中超过23%的基因座和66%的亚型尚未在目前的参考基因组中得到注释。此外,在这一新构建的转录组中检测到17%的非编码RNA和多达24 797个可变剪接以及11 184个可变聚腺苷酸化事件。Li等[18]用PacBio测序技术对猪转录本进行了研究,获得了389 781个高质量的FLNC reads,其中77 075个亚型包含39 940个位点,97 727个可变剪接事件和4 394个以前未在猪中注释的新lincRNA。该研究首次对猪的剪接变异提供了全面的观点,并证明了Iso-Seq在识别FL剪接亚型方面的优势。这些研究都表明了基于三代测序的Iso-Seq在构建一个更完整的参考转录本、准确评价转录组的复杂性、完善对基因组的注释方面具有巨大优势。
2.2.2、 快速鉴定病毒基因型
畜禽健康不断受到病毒感染的挑战,病毒感染可引起肠、呼吸道、生殖和全身性疾病。利用基于二代测序的宏基因组学方法从病原体中检测核酸是诊断检测的一种基本解决方案。然而,大多数二代测序平台需要大量投资,而且病毒基因组学还需要大量的实验室准备工作,包括离心、过滤和核酸酶处理,以丢弃构成现有大部分核酸的细菌和宿主核酸。此外,样本中的病毒核酸含量非常低,在二代测序分析之前需要对这些基因组进行靶向或随机扩增,扩增可能会引起偏差。以上这些因素导致从样本采集到生成诊断报告需要花费大量时间,阻碍了快速诊断的发展。
掌上纳米孔测序仪(MinION测序仪)是一种最新的基于Nanopore测序的微型测序仪,仅有U盘大小,十分便携。Theuns等[19]用MinION测序仪对用细胞培养的猪流行性腹泻病毒和轮状病毒A进行测序,测序开始后7 s便检测到序列,3 h后测序深度可达19.2 ~103.5X。在Theuns等[14]人对细胞培养的病毒鉴定成功后,他们通过对一只1周大的乳猪的粪便样本进行分析,进一步测试了MinION的性能,结果表明MinION可以快速检测肠病毒。新城疫(NDV)是家禽养殖业面临的全球性挑战,对新城疫病毒(NDV)的快速识别和毒力预测能够有效提高管理效率。Butt等[20]也使用MinION测序仪对33个鸡蛋分离物样本(其中15个NDV基因型和15个临床样本)进行测序分析,并与Miseq测序进行比较,两者都能准确预测到毒力和基因型,而且MinION测序和MiSeq测序的序列结果基本一致。
总的来说,虽然这些检测需要在更多病毒更多情况下更广泛的验证,但在不久的将来,这种新技术将改变诊断的方式。届时,一个样本中所有病毒和其他病原体的完整概述遗传信息将只需几分钟在一个读数中给出,而不需要不同的诊断分析。
2.3、 在表观遗传学领域的应用
表观遗传修饰在基因表达的抑制、胚胎发育的调控和细胞染色质结构的测定等方面具有重要影响,例如细菌表观遗传修饰在细胞应激反应、DNA复制、分离、耐药等过程中起着关键作用。在以往的表观遗传修饰检测中,亚硫酸氢盐测序是在二代测序平台上最常用的全基因组甲基化模式检测方法,它需要对亚硫酸氢盐处理过和未处理过的DNA进行测序,并且需要比较这两个序列的读长,该处理过程繁琐且效率有限。而且由于二代测序缺乏简单的方法来确定大多数DNA修饰的位置,许多DNA修饰通常被忽略[21]。而利用三代测序技术检测细菌表观遗传修饰能够实时检测DNA的合成状况并能够分析测序过程中各种类型的DNA修饰(包括某些类型甲基化m6A、m4C、m5C在内的碱基修饰),无需DNA预处理或扩增[22]。Rand等[22]使用MinION装置检测了大肠杆菌不同生长阶段基因组DNA甲基化水平的变化,研究者用20 X的测序深度准确地绘制了大肠杆菌DNA中96%细胞因子的甲基化状态。2017年,Castro-Wallace等[23]利用MinION纳米孔测序仪进行了极端环境太空站下细菌的基因组测序、组装、甲基化等研究,结果表明该测序仪可以在国际空间站上进行快速的现场诊断和微生物鉴定,并且可以在任何空间环境中进行大规模的微生物鉴定。简而言之,三代测序相比于目前标准的亚硫酸氢盐测序可以提供新的见解和优势,是一种高效、强大的DNA碱基特征识别方法。
3、 展 望
与一代测序的低通量、二代测序的短读长相比,三代测序做到了高通量、长读长,长读长能够有效减少基因组拼接的成本,节省计算的内存和时间,在原理上也避免了PCR的扩增错误,同时可以直接应用在RNA测序、DNA甲基化等研究上。新兴的三代长读长测序技术以及相关的生物信息学软件,使得人们为在动植物上构建出越来越多高质量的基因组、转录组、表观基因组成为可能。三代测序带来的更高质量的参考基因组和整个染色体更好的分辨率,促进了基因组各个方面的分析:更完整和更准确的基因表达、更好地测定临床变异,改进的调控区域和其他重要基因元件的定位,改进的等位基因特异性的分型。
然而三代测序仍存在一些重要限制因素:碱基错误率太高、依赖DNA聚合酶的活性、成本高、生物信息软件不够丰富等。因此,对这些因素的改善有益于促进三代测序的应用。虽然三代测序的碱基错误率远高于一代测序和二代测序,但是利用先进的生物信息学方法,读长中单个核苷酸测序的错误率对组装序列准确性的影响相对较小,因为在具有足够测序深度的情况下(30X或更高),它们可以有效地将每个核苷酸测序的错误率由20%降低到1%以下[24]。不过这也带来了成本的提高,三代测序的测序成本远高于二代测序,所以仅用三代测序进行大规模群体应用目前是不现实的。因此,将廉价的二代测序与三代测序进行结合分析是有必要的。比如利用二代测序对三代测序进行校正,利用相对较少的由长读长测序产生的高质量参考基因组来改进之前仅用短读长测序产生的大量基因组的分析。另一个重要研究成本便是数据的计算,这些测序数据的计算需要大量的数据存储和计算成本。因此,还需要进行更多的算法和系统研究,使得分析更快、更廉价、更实用。目前新的技术如机器学习技术、深度学习技术等,可以用来进一步提高序列的准确性,或改进对基因组变异或表观遗传修饰的检测。因此新的下游校正软件、变量调用软件和可视化工具等都有待于相关研究者的进一步开发。
相信对三代测序限制因素的改进能使得三代测序的应用范围和应用规模越来越大,诸如应用在宏基因组学和泛基因组学的发展上,促进在诸多物种上的研究。这些研究不但可以促进人们对生命科学的进一步了解,而且还可以应用在精准医学上,例如从基因的水平上来对疾病进行预防。
(责任编辑:赵 楠)
参考文献
[1] Sanger F, Nicklen S, Coulson A R. DNA sequencing with chain-terminating inhibitors [J]. PNAS, 1978, 74(12): 5463-5467.
[2] Shendure J, Hanlee L. Next-generation DNA sequencing[J]. Nat Biotechnol, 2008, 26(10): 1135-1145.
[3] Rhoads A, Au K F. PacBio sequencing and its applications[J]. Genom Proteom Bioinf, 2015, 13(5): 278-289.
[4] Nagarajan N, Mihai P. Sequence assembly demystified[J]. Nat Rev Genet, 2013,14(3):157-167.
[5] Shi L, Guo Y, Dong C, et al. Long-read sequencing and de novo assembly of a Chinese genome[J]. Nat Commun,, 2016, 7: 12065.
[6] Matthew H, Adam A. The versatility of SMRT sequencing[J]. Genes, 2019, 10(1): 24-28.
[7] Zhang J, Chen L L, Xing F, et al. Extensive sequence divergence between the reference genomes of two elite indica rice varieties Zhenshan 97 and Minghui 63[J].PNAS, 2016, 113(35): 5163-5171.
[8] Zimin A V, Puiu D, Hall R, et al. The first near-complete assembly of the hexaploid bread wheat genome, Triticum aestivum[J]. GigaScience, 2017, 6(11): 1-7.
[9] Yang Y, Lian J, Xie B, et al. Chromosome-scale de novo assembly and phasing of a Chinese indigenous pig genome[J]. BioRxiv, 2019: 770958.
[10] Thomas S, Underwood J G, Tseng E, et al. Long-read sequencing of chicken transcripts and identification of new transcript isoforms[J]. PloS one, 2014, 9(4): 0094650.
[11] Rosen B D, Bickhart D M, Schnabel R D, et al. De novo assembly of the cattle reference genome with single-molecule sequencing[J]. GigaScience, 2020, 9(3): giaa021.
[12] Bickhart D M, Rosen B D, Koren S, et al. Single-molecule sequencing and chromatin conformation capture enable de novo reference assembly of the domestic goat genome[J]. Nat Genet, 2017, 49(4): 643-650.
[13] Jeffares D C, Jolly C, Hoti M, et al. Transient structural variations have strong effects on quantitative traits and reproductive isolation in fission yeast[J]. Nat Commun, 2017, 8: 14061.
[14] Couldrey C , Keehan M D , Johnson T , et al. Detection and assessment of copy number variation using PacBio long-read and Illumina sequencing in New Zealand dairy cattle[J]. J Dairy Sci, 2017, 100(7):5472-5478.
[15] Miao H, Zhou J, Yang Q, et al. Long-read sequencing identified a causal structural variant in an exome-negative case and enabled preimplantation genetic diagnosis[J]. Hereditas, 2018, 155: 32.
[16] Wang Z , Gerstein M , Snyder M . RNA-Seq: a revolutionary tool for transcriptomics[J]. Nat Rev Genet, 2010, 10(1): 57-63.
[17] Chen S Y, Deng F, Jia X, et al. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing[J]. Sci Rep, 2017, 7(1):7648.
[18] Li Y, Fang C, Fu Y, et al. A survey of transcriptome complexity in Sus scrofa using single-molecule long-read sequencing[J]. DNA Res, 2018, 25(4): 421-437.
[19] Theuns S, Vanmechelen B, Bernaert Q, et al. Nanopore sequencing as a revolutionary diagnostic tool for porcine viral enteric disease complexes identifies porcine kobuvirus as an important enteric virus[J]. Sci Rep, 2018, 8(1): 9830.
[20] Butt S L, Taylor T L, Volkening J D, et al. Rapid virulence prediction and identification of Newcastle disease virus genotypes using third-generation sequencing[J]. Virol J, 2018, 15(1): 179.
[21] Liu L, Zhang Y, Jiang D, et al. Recent advances in the genomic profiling of bacterial epigenetic modifications[J]. Biotechnol J, 2019, 14(1): 18001.
[22] Rand A C, Jain M, Eizenga J M, et al. Mapping DNA methylation with high-throughput nanopore sequencing[J]. Nature Methods,2017, 14(4): 411-413.
[23] Castro-Wallace S L, Chiu C Y, John K K, et al. Nanopore DNA sequencing and genome assembly on the international space station[J]. Sci Rep, 2017, 7(1): 18022.
[24] Sedlazeck F J, Lee H, Darby C A, et al. Piercing the dark matter: bioinformatics of long-range sequencing and mapping[J]. Nat Rev Genet, 2018, 19(6): 329-346.