新一代测序技术的发展现状[zz]

一、我们将如何应对海量的基因信息

新一代测序技术带给人们大量遗传信息的同时,却成为限制其广泛应用的一个障碍。

1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖,至今已有近三十年了。在这三十年,DNA测序技术取得了令人瞩目的进展。目前已进入市场的循环阵 列测序平台采用的是与Sanger生物化学测序方法完全不同的原理。在过去几年,应用极为广泛的毛细管电泳测序法采用的则是多线并行阵列格式,它运用尖端 的荧光成像技术进行碱基识别。上述各类新技术为生物学研究领域开辟了新的视角,也使实验研究达到一个新的水平。学界对开发这类新技术的兴趣持续高涨,与此 同时,人们却发现这些技术存在一定的不足——大量信息数据的产生限制了技术更加广泛的应用,并降低了其市场价值。

过去,研究人员使用Applied Biosystems(ABI)公司的3730XL毛细管电泳测序仪进行基因分析,每年至多能完成六千万碱基的测序量。随着测序技术日新月异的发展,这种 情况已经成为历史。在2005年刚刚开始进行新一代测序技术开发时,Roche公司和454公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的 ABI仪器速度的50倍之上。也就是从那时起,因基因数据过多而产生的问题凸显了出来,而且这个问题随着其他制造商开发出更多更快的测序仪而愈加严重。举 个例子,ABI的新一代测序平台SOLiD(supported oligonucleotide ligation and detection)单次运行,便可以分析6Gb的碱基序列;而Roche/454测序仪单次运行可以将上述结果转换成12-15个千兆字节 (gigabytes)的数据信息;Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10兆兆字节(terabytes)的信息。尽管对于像Applied Biosystems这样的制造商而言,可以为用户提供高达11.25TB的存储量,但对于多数实验室所具有的信息管理系统来说,规模如此庞大的数据信 息,就好像是迎面而来的洪水,让人感到难以控制。

过量信息所带来的一个副作用在于,用户无法将初始图像数据进行分类存档,而必须交给相关公司,利用软件对数据进行读取,然后才能对数据进行保存。对 于大多数研究人员来说,像这样在每次实验后对原始数据进行处理的方式既繁琐又不经济。与花费上万美元对每一段序列进行备份分析相比,对每一次测序结果进行 重新测定显然是一个更简单、更便宜的选择。测序仪制造商称,对原始数据再次进行分析并不能得到更多新的信息。但是,对于454测序仪而言,用户至少可以通 过更新的软件从原始数据得到质量更高的序列,从而提高碱基识别分辨率,减少误差。

除数据处理问题之外,研究人员还需要拥有一个足够强大的计算机平台,以便将来自多个测序技术的短小基因片段进行组合,形成基因组外显子。目前问题在 于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型 的下游生物学信息分析软件。研究界越来越熟悉这些测序平台对循证生物学的巨大潜力,这也就产生了新的研究问题以及全新类型的试验方法,而这单凭依赖目前的 生物学信息是无法满足的。

从这个角度看,SOLiD软件研发公司(http://solidsoftwaretools.com/gf/)于今年七月刚刚兼并了两个新的软件 公司,这一举动无疑朝正确的方向迈进了一步。该公司在开放源码许可证下开发软件分析工具,目的就是为了给生物信息学领域提供支持,并为其开发新的算法。

对用户而言,如果能够将数据格式与不同测序平台获得的结果进行比较所得的统计数字进行标准化,无疑具有重大的意义。特别是由于目前以测序平台为核心的市场竞争激烈,因此每个生产商都努力提供最好的数据结果。

在这样的大环境下,对数据及不同产品的比较结果进行标准化,便显得尤为重要。有一个方法可以更好地对不同的新一代测序技术进行比较,那就是建立一个 微阵列定性分析小组(Microarray Quality Control consortium),不仅可以对不同的技术结果进行比较,而且还可以将新技术结果与DNA微阵列或定量PCR进行比较。

综合以上各类因素,可以预见的是,新一代测序平台在近几年内,仍然会局限于少数实验室及研究者,而大多数缺少能够对基因信息进行进一步分析的实验室 则无法从新测序技术中获益。对大多数实验室而言,即使新一代的测序平台能够提供更多的信息,DNA微阵列分析仍然是一个相对便宜的选择。例如,在转录分析 中,虽然新一代测序结果不仅能给出具有很大动态范围的基因丰度信息,同时还可提供剪切变异信息以及SNP数据,但是这些数据结果都需要进行不同的DNA微 阵列分析才能获得。

那么,有没有什么方法可以解决这些问题呢?首先,相关的资金授予机构应该对生物信息学的发展予以与测序技术同等的关注;此外,由于生物信息学发展中 的瓶颈已经限制了测序机器的销售,测序仪生产商也应该联合起来解决这一难题。同时,制造商应该致力于制定以研究领域为基础而不是以不同公司为基础的生物信 息学解决方案。

因此,如果新一代测序平台真的能够带动基因组测序“普及化”——让基因组测序从大型测序中心走入每个研究人员的实验室或者小型研究小组,那么还需要 研究人员付出更多努力,开发出经济实惠的分析软件以及数据管理系统。目前的状况是,与新一代测序技术相关的生物信息学分析工作仅仅掌握在少数人手里,但是 这一具有重要价值的技术毫无疑问应该由大多数人掌握。如果数据处理问题不能得到有效解决,那么ABI公司的SOLiD系统、454公司的超高通量基因组测 序系统——GS FLX、Illumina公司的GAII系统等新一代测序仪就永远无法真正出现在能够展现其价值的舞台上。

原文检索:Editorial. (2008) Prepare for the deluge. Nature Biotechnology, 26(10): 1099.

二、传统的DNA测序技术——Sanger测序法

自上世纪90年代初,所有的DNA测序操作几乎无一例外地全部采用半自动化毛细管电泳Sanger测序法。而后来出现的高通量测序方法则首先采用以下两种方法中的一种对DNA进行预处理。

无论采用以上哪种方法处理后,我们均可以得到大量的待测序模板片段——质粒或PCR产物。随后,测序仪会进行“循环测序”反应。在每一轮测序反应的 引物延伸步骤中,会随机引入已被四种不同颜色荧光分别标记的ddNTP(ddATP、ddTTP、ddGTP、ddCTP)以终止延伸反应。这样就形成了 大量末端被荧光标记的、长短不一(终止位点不同)的延伸产物。接着,再用高分辨率的毛细管凝胶电泳分离这些延伸产物,通过对延伸产物末端四种不同荧光颜色 的区分,计算机软件会自动“读出”DNA序列。不过,该方法在“读取”每一个碱基信息时都有可能出错。后续操作中,比如基因组组装或者找出变异位点等就是 具体情况具体解决了。一般,这种高通量测序仪一次最多只能同时进行96个或384个样品测序。

Sanger DNA测序技术经过了30年的不断发展与完善,现在已经可以对长达1,000bp的DNA片段进行测序了,而且对每一个碱基的读取准确率高达 99.999%。在高通量基因组鸟枪法测序操作当中,使用Sanger测序法的费用大约为0.5美元/1,000个碱基。

原文检索:Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology, 26(10):1135-1145.

三、新一代DNA测序技术

DNA测序技术已广泛应用于生物学研究的各个领域,很多生物学问题都可以借助高通量DNA测序技术予以解决。过去三年,大规模平行 测序平台(massively parallel DNA sequencing platform)已经发展为主流的测序技术,这项测序技术的出现不仅令DNA测序费用降到了以前的百分之一,还让基因组测序这项以前专属于大型测序中心 的“特权”能够被众多研究人员分享。目前,新的测序技术及手段还在不断涌现,比如最新的进展就包括建立序列数据库、建立序列数据分析新方法以及设计测序试 验等等。新一代DNA测序技术有助于人们以更低廉的价格,更全面、更深入地分析基因组、转录组及蛋白质之间交互作用组的各项数据。今后,各种测序将成为一 项广泛使用的常规实验手段,这有望给生物学和生物医学研究领域带来革命性的变革。

DNA测序技术经历了漫长而曲折的发展历程。迄今为止,我们获得的绝大部分DNA序列都是基于Sanger测序法获得的。在过去5年间,人们至少从以下四个方面刺激了DNA测序技术的发展。

1. 具有代表性的新一代DNA测序仪

最近市面上出现了很多新一代测序仪产品,例如美国Roche Applied Science公司的454基因组测序仪、美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪、美国Applied Biosystems公司的SOLiD测序仪、Dover/Harvard公司的Polonator测序仪以及美国Helicos公司的 HeliScope单分子测序仪。所有这些新型测序仪都使用了一种新的测序策略——循环芯片测序法(cyclic-array sequencing),也可将其称为“新一代测序技术或者第二代测序技术”。

所谓循环芯片测序法,简言之就是对布满DNA样品的芯片重复进行基于DNA的聚合酶反应(模板变性、引物退火杂交及延伸)以及荧光序列读取反应。 2005年,有两篇论文曾对这种方法做出过详细介绍。与传统测序法相比,循环芯片测序法具有操作更简易、费用更低廉的优势,于是很快就获得了广泛的应用。

虽然这些新一代测序仪以及芯片的实际制作过程似乎都和传统的测序方法有很大的不同,而且各有特点(表3),但实际上它们背后的原理和技术都是非常相 似甚至是相同的(图1b)。新一代测序法首先也是将基因组DNA随机切割成小片段DNA分子,然后在体外给这些小片段分子的末端连接上接头制成文库,也可 以使用配对标签(mate-paired tag)制成跨步文库(jumping libraries)。随后可以通过原位polony(in situ polony,小词典1)、微乳液PCR(emulsion PCR)或桥式PCR(bridge PCR)(图5)等方法获得测序模板。

上述方法有一个共同点,那就是任何一个小片段DNA分子的PCR扩增产物都是在空间上聚集的:原位polony法和桥式PCR法中所有的产物都集中 在平板的某处,在微乳液PCR法(emulsion PCR)中所有的产物都集中在微珠的表面。真正的测序反应本身和传统测序法一样,是由重复的聚合酶促反应和最后的荧光读取分析反应组成(图6)。本文讨论 的所有测序仪都是使用合成测序法(sequencing by synthesis),即通过聚合酶或连接酶不断地延伸引物获得模板序列,最后对每一轮反应的结果进行荧光图像采集、分析,获得序列结果。

1.1    454测序仪

454测序仪的出现极大促进了测序业务的开展,科研人员已经将测序技术作为解决科研工作中许多常见问题的利器。这是因为454测序仪在以下几个方面 取得了质的突破:首先是解决了高通量测序问题;其次它简化了样品准备步骤,将以往转化大肠杆菌扩增质粒的繁琐过程全部用简单的体外PCR扩增法替代了;最 后,它缩小了测序反应体积,节省了试剂。这样,454测序仪做到了以极其低廉的价格进行大规模平行测序反应。它的测序规模之大、测序费用之低是以往的测序 仪无法匹敌的。454测序仪与其它的新一代测序仪一起,降低了测序检测的费用,推动了测序技术平民化进程,使得小实验室也能开展测序检测项目,打破了以往 只有少数几个大型测序中心才能进行测序研究的“垄断地位”。在过去的18个月里,由于有了454测序仪的帮助,人们对人类基因组的结构有了更深入的了解, 同时第一次使用非Sanger测序法对个人进行了测序,还建立了一种发现小RNA的新方法。不过,要能让更多的人使用上新一代的测序产品,它们还需要变得 更便宜,并且更加容易操作。在一段时间之内,454测序仪必定会进一步降低测序费用,帮助人们迎接个人基因组时代的到来。

自从诺贝尔奖得主Frederick Sanger和Walter Gilbert(图2)分别发明了链终止法DNA测序技术(sequencing by chain termination technique)和链断裂法DNA测序技术(sequencing by chain fragmentation technique)之后,人们就一直希望能够扩大DNA测序技术的处理规模。到了今天,我们对测序技术的需求和对计算机技术的需求一起出现了迅猛的增 长,因为测序技术的发展速度已经远远跟不上实验要求的增长速度。于是出现了好几种替代Sanger测序法的新型测序方法,比如杂交测序法、借助原子力显微 镜(atomic force microscopy)直接DNA成像测序法(direct imaging of DNA sequence)、质谱分析法、合成测序法以及微液流测序法等等。在我们进行人类基因组计划时还出现了三项技术改进方法,即使用荧光标记物取代了放射性 标记物来标记终止碱基(双脱氧碱基);使用毛细管电泳(capillary electrophoresis)取代了传统的平板凝胶电泳;建立了末端配对测序法(paired-end sequencing)来对质粒、fosmid、人工细菌染色体(BAC)等短片段序列进行测序,解决了测序长度带来的限制问题。同时,开展研究的自动化 液体分装技术(liquid-handling robotics)帮助我们摆脱了人工试管操作,可以用自动化的方式在微量滴定板(microtiter plate)上装载待测序样品(质粒等),极大地降低了测序的费用和劳动强度。

随着美国454 Life Sciences公司(该公司现已被美国罗氏公司收购)的第一台新一代测序仪——454测序仪的面世,我们获得了一种完全不同的测序方式。454测序仪引 领的新一代测序技术在一直困扰传统测序技术的三个瓶颈问题上取得了突破。这三个问题分别是文库制备、模板制备和测序。而且,在随后出现的其它新一代测序仪 产品身上,我们或多或少都会发现在454测序仪上使用到的技术,这也足以说明454测序仪的技术创新的确取得了巨大的成功。

454测序仪的先行者地位使它对整个测序业的影响远远超过了其它新一代测序仪竞争对手。这一点从Leamon、Rothberg等人撰写的一篇介绍 2005年技术进展的论文被引用了570多次的事实,以及有100多篇经过同行审议的关于人类遗传学、代谢组学、生态学、进化学以及古生物学的论文 (peer-reviewed publications)都是使用454测序仪开展的研究多个事实中都能够得到证明。454测序仪技术是继Sanger测序技术之后出现的第一个用于对 细菌基因组进行从头测序的新技术,也是第一个被用来对人类基因组进行测序的非Sanger测序技术。其它使用454测序仪开展的重要研究项目包括探究蜜蜂 消失原因的项目、研究人类基因组重排复杂性的项目、建立用于研究传染性疾病新方法的项目以及对尼安德特尔人(Neanderthal)基因组的测序项目等。

1.1.1 摩尔定律对454测序仪的影响

454测序仪的迅猛发展不是因为我们想要Sanger测序仪小型化,而是因为新型奔腾芯片的出现以及摩尔定律法则给我们带来的希望。很明显,常规的 人类基因测序项目会对我们处理测序技术的能力提出更高要求,这与我们对计算机处理能力的要求是一样的。不过,只有将计算机的电子管换成晶体管,才为后来集 成电路技术的发展提供了可能,这正是计算机产业发展的关键所在。而希望对传统的毛细管电泳技术进行改良,提高它的速度和处理规模,正如只用电子管直接制作 集成电路一样不可能。因此,如果将各种测序技术比作一个个晶体管,将一系列测序步骤整合起来比作集成电路,那么也就可以用摩尔定律来预测DNA测序技术的 发展速度了。

合成测序法概念虽然在提出的时候还不算成功,但它的出现为测序仪小型化奠定了基础。基于合成测序法出现了两种策略:一种是循环可切除终止测序法 (cyclic reversible termination technology),即依次逐个添加荧光标记的碱基,继而检测荧光信号,切除荧光基团,如此往复;另一种策略是焦磷酸测序法(sequenced by detecting pyrophosphate release)。454测序仪采用的正是焦磷酸测序法,因为它似乎比第一种方法的效率更高。结果证明,454公司的选择是正确的。454测序仪采用的是 小型化焦磷酸测序反应,测序模板准备和焦磷酸测序反应步骤都是在固态芯片上完成的。

实际上,早在上世纪90年代中期,焦磷酸测序技术就已经被科研界用来进行基因分型工作了,但那时的焦磷酸测序技术还不能够满足标准的测序实验要求, 因为它的测序长度太短,因此只能用于旨在发现SNP的基因分型研究当中。当时进行基因分型操作时,是在微量滴定板(microtiter plate)上进行的,可以连续进行最多96次基因分型实验,平均每个样品花费20美分。那时焦磷酸测序还不能用于从头测序工作,因为从头测序需要对每一 个尤其是第一个碱基都能准确地区分清楚,而焦磷酸测序只能简单地对已知位点的碱基进行检测,而且从头测序要求的测序长度也是焦磷酸测序法无法达到的。

不过,由于焦磷酸测序的原理是通过检测碱基掺入时发出的光来进行测序的(图3),所以它并不需要类似于电泳之类的物理分离过程来对碱基进行区分。这 也就是说焦磷酸测序仪可以“缩小(减)”到只需要检测光线就够了,而不需要像传统的测序仪还需要电泳设备,而这正是限制传统电泳仪小型化的关键所在。发光 检测方法还能够进行多路平行操作,但是直到454测序仪出现之前,还没有人这样做过,以前都是依次进行检测的。和晶体管早期的遭遇一样(当时人们也怀疑晶 体管替代不了电子管),人们同时对高密度的,用于并行焦磷酸测序的反应也充满了疑问。不过,当我们不再在溶液中进行测序反应,而是将测序模板、所有的试剂 (酶)都固定在平板上制成芯片之后,就获得了小型化的,能进行多路并行处理的测序仪,这就与晶体管被小型化并整合成
集成电路的过程一样。此外,借 助微量滴定板上一个个的小孔所达到的将不同测序反应进行分隔这一目的,也能通过在单个固相支持物上进行严密包裹(隔离)的反应来实现。在这些各自隔绝的反 应体系中,链聚合反应速度和发光速度都能通过对反应试剂和产物弥散状况进行严密的控制来进行精密的调整。

1.1.2 新的并行试验方法

在开发新型高通量、高并行运行方法时碰到的一个关键问题是,如何将反应试剂同时加入数量如此之多的各个反应体系中?在焦磷酸测序的过程当中需要反复 加入不同的碱基以供测序反应使用,而当时的自动化加样设备无法有效地做到对这么多的反应体系同时循环加样。于是,开发一种全新的高密度并行处理方法这一重 要课题又再一次摆在了科研人员的面前。这一次,我们找到了一个非常简单但是又很巧妙地方法。在高密度的反应芯片表面使用层流(laminar flow)加样方式,反应试剂会通过扩散作用很好地进入每一个反应体系,而且也可以用层流的方式洗去多余的反应试剂。现在,所有的新一代测序仪都采用了这 种层流加样方法。

为了将每个单独的测序反应都分隔开来,我们一开始使用平板(芯片),不过在平板上平均每一平方厘米的面积上最多只能同时进行数百至数千个反应。但我 们希望达到的是在每平方厘米的面积上同时进行100万个测序反应,这样才能令测序仪小型化,同时节省试剂并进行快速成像和测序。为了实现更高密度的测序反 应,我们在平板上制作了很多小孔,将每个反应体系都安置在这些小孔中,这些小孔都足够深,足以分隔每个反应体系。虽然这种方法极大提高了测序反应的密度, 缩小了平板的面积,但是要达到我们的要求还是需要60mm×60mm大小的芯片才行。

针对图像采集问题使用了商业化的天文学照相(astrological grade camera)器材,在电荷偶合装置(CCD)的表面连接上光纤束(fiber-optic bundle)。这些光纤是锥形排列的,这样可以将大范围的光信号都传输到CCD表面上很小的一个范围。采取下面两个步骤,我们就可以制成含有高密度小孔 的芯片:先将光纤束连接到类似于载玻片一样的一次性芯片上,然后用酸蚀刻(acid etching procedure)技术在玻片的另一面打上小孔。这种酸蚀刻技术是根据制作生物传感器的技术改进而来的。

454公司制作的每张芯片上可以达到数百万个小孔,每一个小孔都是一个独立的“反应站”,互不干扰,测序反应发出的光被连接在芯片上的光纤传送到 CCD记录下来(图4)。这种芯片就好像集成电路一样一次可以同时处理数百万个测序反应。这种芯片同样也能被其它通过发光检测技术的产品所使用。454测 序仪也没有像以前的96孔板焦磷酸测序仪那样使用液态的试剂,而是将试剂和模板统统都吸附在一个个微珠上,然后把这些微珠一个个地放到芯片上的小孔中,每 孔一个微珠。这种固定步骤不仅保证了每孔测序反应的独立性,也极大地节省了试剂消耗费用。

要想实现高通量基因组测序,只对测序步骤进行优化还是远远不够的。人类基因组计划花费的30亿美元经费中有很大一部分都用在了测序样品制备阶段。当 时即使是采用最简单的制备样品方法也需要将目标片段克隆到细菌中,挑克隆,再转到96孔板,然后进行克隆扩增,提取质粒,制备测序模板。这种工作流程既耗 时也耗钱。

如果采用新型的文库制备方法就可以极大地节省这部分开支,这种新型的方法是先分离基因组DNA,随机切割成小片段分子,然后通过有限稀释 (limiting dilution)和聚合酶扩增反应,即体外克隆方式(clones without bacterial)制备模板片段。这样,从模板制备到最后的测序反应整个过程都能够在体外完成。

1.1.3 从发明到创新

从概念的提出到最后技术上的实现,454测序仪主要关注两个方面,首先是开发蚀刻光纤玻片;其次,改进焦磷酸测序方法使其能在固相支持物上进行,即将其改造成固态焦磷酸测序法,同时也对模板及文库构建方法进行了改进,让454测序仪能进行长片段测序工作和从头测序工作。

1.1.3.1 在蚀刻板上的小孔中进行固态、长片段焦磷酸测序反应

蚀刻技术经过改良之后能在75mm×75mm的玻片上刻出深55μm、宽44μm的小孔。而开发固态测序方法和改良测序长度则是两个紧密相关的问 题,因为在固定的小孔中反应实际上就能改进测序质量和测序长度。由于反应试剂能迅速渗透到小孔中,因此反应速度也会加快。而且这里也没有使用三磷酸腺苷双 磷酸酶(apyrase)提取未参与反应的碱基,而是将芯片置入反应池中通过层流液体的快速渗透作用将多余的未参与反应的碱基和反应副产品洗掉,由此得到 100bp~500bp的测序长度。在能有效去除多余碱基的同时,每轮反应中聚合酶的效率也得到了极大提高。这样高效率的聚合反应使得454测序仪具有较 长测序长度的同时也保证了高准确性,测序长度在200bp时的准确率高达99.5%。这是因为通过降低小孔中残存的未参与反应的碱基浓度,可以降低这些碱 基对聚合酶活性的抑制作用,或者降低这些碱基导致的延后错误(carry-forward error,即由于未参与反应的碱基导致的测序反应不同步现象)的发生率。454测序仪在测序长度和准确率方面具有优势还因为其在应用流体学、表面化学和 酶学(包括选择更好的聚合酶、在更高的温度进行测序反应以及更换及平衡各个酶组分)等方面都有创新(表4)。

还有一些能提高测序精度和测序长度的技术,不过暂时还没有商业化产品。这些技术包括使用可切除的终止碱基(reversible terminator)提高对同聚物(homopolymers)的检测精度;双末端测序法(double-ended sequencing),即同一模板的两条链均不测序;以及选择性酶固定法(alternative enzyme-immobilization method)等。这些技术改进还都没有用到测序仪产品中,有一部分原因是因为现在还没有必要使用。

注:蜜蜂群崩溃症(honeybee colony collapse),指的是来自养蜂业的蜂箱或自然界存在的欧洲蜜蜂群的工蜂突然消失的现象,又称作Colony collapse disorder(CCD)。

1.1.3.2 模板制备程序

完全的体外大规模模板制备工作是达成高通量、低价格测序技术的前提。已广泛使用的乳液PCR扩增技术就是一种很好的方法。不过,由于很难在热循环测序反应中保证乳液微滴的稳定性,因此最开始实验的模板扩增方法是恒温扩增法(isothermal)。
乳 液PCR不需要借助细菌的帮助就能扩增模板,虽然这一点非常诱人,但最开始时并没有合适的表面活性剂能帮助乳液在热循环过程中保持稳定。于是出现了恒温扩 增法,即滚环扩增反应(RCA)。虽然滚环扩增反应的产量非常高,但这些产物中大部分都不能用来作为测序模板。因此,还需要找到一种不需要细菌扩增,能用 于有限稀释的模板扩增新方法。于是,人们又把目光转回了PCR法。在RCA法中,首先将模板克隆有限稀释之后置入光纤玻片上的小孔中,然后用橡胶衬垫把光 纤玻片封闭起来,将玻片放入传统的平顶PCR仪进行扩增。这种方法取得了成功,但是效率不高,因为在玻片中的热质量(thermal mass)和它的钳效应(clamping mechanism)需要更长的PCR循环时间,而且模板的有限稀释度不能低于10%。孔与孔之间的相互污染现象也是一个不容忽视的问题。不过无论如何, 该方法还是第一个首先从全基因组文库中扩增模板然后使用非Sanger、非Gilbert测序法对基因组进行从头测序的方法,也是第一个使用体外模板扩增 技术进行全基因组(腺病毒基因组)测序的方法。

乳液滴的热稳定性问题最终通过加入用于制造炸药的表面活性剂得到了解决,于是乳液PCR技术马上在众多新一代测序仪中得到了广泛的应用。因为乳液 PCR技术具有高效性、可扩展性,既能从30Kb的腺病毒基因组中扩增模板,也能从好几Mb的肺炎链球菌(Streptococcus pneumoniae)基因组中扩增模板。

随着测序精度、测序长度、乳液滴稳定性等各方面技术的不断发展,454测序仪已经不仅仅用于对细菌级别的基因组进行测序了,还能对更高级、更复杂的生物基因组进行测序,例如现代人类基因组、尼安德特人基因组以及环境基因组等。

1.1.3.3 文库制备

文库制备包括以下几个步骤,首先随机切割样品基因组,获得大量DNA片段,然后接上接头进行扩增反应。454测序仪的样品制备程序和Craig Venter等人的鸟枪法样品制备程序有着本质的差别。454公司采用的是如图4中所示的有限稀释、乳液PCR扩增法,而没有鸟枪法中的细菌克隆繁殖步 骤。去掉了细菌繁殖步骤极大地提高了整个测序工作的速度和效率,同时避免了由于细菌繁殖导致的序列丢失的可能性。这种方法同样对古老DNA和代谢基因组学 的研究也非常适用。末端配对文库制备方法的建立同样帮助454测序仪获得了对复杂基因组从头测序、对重复片段测序以及对基因组结构(复制、重排)展开系统 研究三种能力。这种末端配对文库的制备方法是受到了Bender科研小组对果蝇(Drosophila)制备跨步文库(jumping library)方法的启发而发展得来的。

1.1.4 应用范围

随着越来越多重要的研究领域受到测序技术的影响,454公司开始和其它商业和学术机构开展合作,进行样品测序和分析工作。这些合作项目又进一步验证 了454测序仪使用的技术能够在众多领域中发挥作用,例如末端配对文库技术对于研究基因组结构的作用和乳液PCR技术捕获目的DNA片段的作用等。

1.1.4.1 细菌基因组测序和比较基因组研究

为了测试454测序仪在全基因组测序方面的能力,454公司一开始就参与了一项合作项目,该研究项目会对4株结核分支杆菌基因组进行测序,这四株结 核分支杆菌分别是一株对R207910具有耐药性的结核分枝杆菌(Mycobacterium tuberculosis)菌株,基因组大小约4Mb;两株对R207910具有耐药性的耻垢分支杆菌(Mycobacterium smegmatis),基因组大小约6Mb;以及一株正常的耻垢分支杆菌(Mycobacterium smegmatis),基因组大小约6Mb。他们希望能发现结核分枝杆菌(Mycobacterium tuberculosis)对R207910产生抗药性的机制。该项研究清晰的展现了454测序仪在测序速度和测序精度方面的优势。使用传统的 Sanger测序法对一个4Mb的基因组和3个6Mb的基因组进行测序需要好几个月的时间,而用454测序仪,在只有一位实验人员参与实验的情况下,包括 样品制备等步骤在内所用的时间仅需要一周。而且使用454测序仪还避免了传统测序方法中细菌克隆阶段可能出现的错误,获得了高质量的测序结果,发现了导致 结核分枝杆菌对R207910产生抗药性的两个点突变位点。这项研究成果让我们在最近的40年内第一次找到了特异性治疗结核病的药物,同时也对454测序 仪在细菌基因组测序方面的应用价值有了深刻的体会。随后,454测序仪又参与了比较基因组学研究项目、对高致病性细菌空肠弯曲菌 (Campylobacter jejun)基因组的从头测序项目、对幽门螺杆菌(Helicobacter pylori)在慢性胃炎致病过程中的进化研究项目、从南极海冰细菌(Antarctic sea ice bacterium)中新发现冰结合蛋白(ice-binding protein)并对其测序的研究项目,以及在引起肺炎、脑膜炎和泌尿道感染的细菌中发现致病因素的研究项目等。

由于454测序仪不会因为细菌克隆产生测序误差,所以在对结核分枝杆菌抗药性的研究中表现出了非常强的发现突变位点的能力,这一点也被后来的其它研 究项目所证实。此外,最近在用454测序仪进行的人类基因组测序项目中发现了长达29Mb的片段与人类基因组参考序列build-36不相符,这些片段被 认为是参考序列中不存在的序列,属于基因组中的常染色质部分。不过,还需要注意的是,有些报道称由于重复片段的存在会出现序列组装错误,而且小模板片段雾 化(nebulization)处理这种方式也会造成测序错误出现。

1.1.4.2 小RNA测序

对于包括miRNA在内的小RNA的研究兴趣从2005年开始就持续不断升温,而2005年恰好也是454测序仪上市的那一年。454测序仪以其不 需要进行传统的细菌克隆步骤和足以覆盖只有21bp长的miRNA的测序长度等优势,很快就在miRNA的作用研究之中占据了一席之地。454测序仪最早 参与进行的miRNA研究是对拟南芥(Arabidopsis thaliana)miRNA开展的研究。随后马上又参与了另一项研究项目,在这个项目中我们在小鼠体内发现了一种新型的小RNA——piRNA。这些研 究项目为我们在人类、黑猩猩、斑马鱼和肿瘤细胞系中开展小RNA研究铺平了道路。454测序仪具有的这种对小RNA进行研究的能力使它在众多有关RNA的 研究领域都能有所作为,例如转录体研究领域、EST研究领域、5’-RATE研究领域和基于转录体的SNP研究领域等。

1.1.4.3 在古生物学和古DNA研究领域的作用

要用传统的测序方法对尼安德特人的基因组进行测序研究非常困难,因为这些古老DNA量非常少,而且都早已裂解成了片段。一开始,454公司使用比较 容易得到的不太重要的古代DNA样品检验了454测序仪对它们的测序能力,结果非常好,尽管当时454测序仪的测序长度只有100bp。不过,尼安德特人 的基因组片段长度基本上都介于40bp~90bp之间,而且最近开发的乳液PCR方法也能够对微量(单分子)样本进行很好的扩增。于是,454测序仪参与 了对38,000年前古老的尼安德特人的基因组进行测序的工作,研究结果分别发表在了好几篇论文当中,引起了广泛的关注,并促进了古生物学基因组的研究。 随后有人对长毛象(woolly mammoth)和更新世狼(Pleistocene wolves)的基因组开展了测序研究。

1.1.4.4 环境基因组学和感染性疾病研究领域

美国在2001年爆发了炭疽恐怖袭击危机之后,454公司便对如何使用454测序仪对复杂的、未知的、未人工培养的环境微生物基因组进行测序展开了 研究。前后两个合作研究项目均表明454测序仪能够用于从DNA混合样品中发现未知微生物并对其进行分类。在第一个研究项目中,有三名患者都接受了同一名 澳大利亚器官捐赠者的器官,之后均因不明原因而死亡。从这三名死者身上提取了非人类DNA样品进行测序,结果获得了144,000条序列。分析后发现,这 些序列分别属于一种沙粒病毒科(Arenaviridae)家族病毒的14个不同基因。随后进行的第二项研究在对健康蜂群和患病蜂群进行环境基因组学比较 研究之后发现,以色列急性麻痹病毒(Israeli acute paralysis virus)是导致蜜蜂蜂群崩溃症的元凶。上述这些研究都突出了454测序仪的一个特点,即在样品准备前不需要进行克隆或预扩增步骤,因此非常适用于对未 知的未能人工培养的物种进行测序。这些特点也在其它对地下矿藏、深海、土壤和高盐等环境下进行的环境微生物构成方面的研究所证实。

1.1.4.5 基因组结构研究领域

454测序仪技术的进步使它能够适用于更多的科研领域。最新开发的末端配对测序法(paired-end sequencing)就非常适合用于发现人类基因组当中的结构变异。末端配对作图过程(paired-end mapping),简单来说就是对一个非洲人和一个欧洲人的基因组进行测序后发现结构变异并对其作图,最终将1,000多个3Kb或更长的结构变异片段定 位到人类基因组参考序列中。研究发现,在人类基因组当中存在的结构变异远远超过了人们的预计,其中有很多变异都会造成非常重要的表型改变。这项对诺贝尔奖 得主James Watson基因组进行测序的项目和其它相关研究,一起使得“人类基因多样性(human genetic variation)”这一科学命题成为了《科学》(Science)杂志的年度重大科技突破。

1.2 Illumina测序仪

Illumina测序仪通常也被称作Solexa测序仪(Illumina测序仪的特点见表5)。它适用于采用各种方法制备的DNA文库,文库中 DNA片段可以长达数百bp,并可通过桥式PCR来扩增模板片段(图5b)。在桥式PCR反应中,正向引物和反向引物都被通过一个柔性接头 (flexible linker)固定在固相载体(solid substrate)上。经过PCR反应,所有的模板扩增产物就都被固定到了芯片上固定的位置。

值得注意的是,Illumina测序仪使用的桥式PCR与传统的桥式PCR有所不同,它会交替使用Bst聚合酶进行延伸反应以及使用甲酰胺 (formamide)进行变性反应。这样,经过桥式PCR扩增之后,也会在固相载体上形成一个个的模板“克隆”。一块芯片的8条独立“泳道”上每一条泳 道都可以容纳数百万的模板“克隆”,这样一次就可以同时对8个不同的文库进行测序。

经过上述PCR扩增步骤之后,所有的模板都被线性化处理(linearization)而形成单链模板,接着与测序引物退火、杂交。随后使用修饰的 DNA聚合酶和四种核苷酸混合试剂进行单碱基延伸测序反应(图6b)。这些核苷酸试剂都经过两种方式处理过,它们都是可逆的终止子(reversible terminator)。这些核苷酸的3’羟基端都有一个可被化学法切除的基团,这样每一次反应都只会掺入一个核苷酸,同时每种核苷酸都标记上了可被化学 法切除的不同颜色的荧光基团,以标识每种碱基。经过一轮单碱基掺入反应采集到信号之后,就可以通过化学方法切除上述被掺入核苷酸上标记的两个基团,然后就 能够继续掺入下一个核苷酸,重复测序反应了。这种测序方法对36bp长度的序列测序准确率是非常高的,不过如果处理更长的序列,准确率就会有所降低了(丁丁博客注:目前llumina的测序长度已经可以达到150bp,对于前60bp的准确率都很高)。

1.3 AB SOLiD测序仪

AB SOLiD测序仪可以对由任何方法制成的DNA文库进行测序。AB SOLiD测序仪有一个极大的特点就是能够将富集模板片段的微珠在芯片上进行高度可控的任意排列。AB SOLiD测序仪也是使用如图5a中所示的微乳液PCR方法扩增模板片段的,不过,它这里使用的是直径只有1μm的小磁珠。PCR扩增反应结束之后,微乳 液滴被打破,小磁珠被富集起来固定到固态平板上,制成高密度测序芯片。后面的合成测序法由DNA连接酶而非DNA聚合酶完成。

首先,通用引物与模板片段两端的接头序列互补结合,然后连接酶将一个被荧光标记的8bp长的核酸探针片段(fluorescently labeled octamers)连接到引物末端(图6c)。这段8bp长的核酸探针片段是经过设计的,比如其中第五位碱基上就标记了荧光。连接反应完成之后,就可以采 集荧光图像,然后在第五位碱基和第六位碱基之间切断,去掉荧光标签。如此反复,就可以获得每间隔四个碱基的第五号碱基的确切信息,比如第5号碱基、第10 号碱基、第15号碱基以及第20号碱基等等。经过几轮这样的循环之后,已经获得延伸的引物会变性脱落,再重新结合上新的引物从头开始新一轮测序,不过这一 次可能获得的是第4号碱基、第9号碱基、第14号碱基以及第19号碱基的信息。我们可以使用不同长度的引物(+1或者-1)或者使用在不同位点(比如第2 号碱基)标记荧光的8bp核酸探针片段达到这个目的。如此反复,最终就能获得整条模板片段的完整序列信息。

AB SOLiD测序仪还有一个特点就是使用了双碱基编码技术(two-base encoding),该技术具有误差校正功能,因为它是通过两个碱基来对应一个荧光信号而不是传统的一个碱基对应一个荧光信号,这样每一个位点都会被检测两次,因此出错率明显降低。

Polonator测序仪是一个和AB SOLiD测序仪比较相似的产品,因为它也运用了J.S等人和哈佛大学Church研究小组开发的部分系统。Polonator测序仪同样也使用微乳液 PCR法扩增模板片段,使用连接酶法测序。不过,Polonator测序仪的价格要比其它第二代测序仪低得多。而且更重要的是,Polonator测序仪 是一个开源的设备,用户可以通过自己编程“设计”出最适合自己的测序仪。不过,Polonator测序仪目前可测序的长度还非常有限。

值得注意的是,454测序仪、SOLiD测序仪以及Polonator测序仪还都存在一个共同的不足,那就是微乳液PCR技术实在是太过麻烦并且对 实验操作的技术要求较高。不过从另一方面来说,使用仅仅只有1μm大小的磁珠构成的高密度测序芯片进行测序(不论是使用聚合酶法、连接酶法,还是其它的生 化方法)是最有可能实现的高通量测序方法。因为1μm是衍射技术(diffraction)所能分辨的极限大小了。另一方面,最近报道的使用1μm磁珠进 行高分辨率芯片点样技术的突破,使我们有望实现每个测序模板一个像素(one pixel per sequencing feature)的愿望。

1.4    HeliScope测序仪

HeliScope测序仪是由Quake团队设计开发的,它实际上也是一种循环芯片测序设备。不过,HeliScope测序仪最大的特点是无需对测 序模板进行扩增,它使用了一种高灵敏度的荧光探测仪直接对单链DNA模板进行合成法测序。首先,将基因组DNA切割成随机的小片段DNA分子,并且在每个 片段末端加上poly-A尾。然后通过poly-A尾和固定在芯片上的poly-T杂交,将待测模板固定到芯片上,制成测序芯片。最后借助聚合酶将荧光标 记的单核苷酸掺入到引物上(图6d)。采集荧光信号,切除荧光标记基团,进行下一轮测序反应,如此反复,最终获得完整的序列信息。根据最近的报道,经过数 百轮这种单碱基延伸可以获得25bp或更长的测序长度。HeliScope测序仪的其它特点见表6。

原文检索:Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.

2. 用于处理新一代测序技术数据的软件和标准

各种新一代测序仪的飞速发展面临着一个极其重要的问题,那就是生物信息学问题,这些问题包括序列质量评分(sequence quality scoring)问题、序列比对问题、序列组装问题、数据发布问题等。下面将逐个进行讨论。

2.1 序列质量问题

目前,序列质量评分问题是受到广泛关注的一个问题。造成这种现象的原因主要是因为所有新一代测序仪的测序质量都不高,而且不同的序列情况都有各自的 误差率。随着新一代测序仪产品的不断成熟,在临床及科研工作中的应用范围越来越广,它们的测序质量也就变得重要起来,而且我们也需要对各个测序仪的测序质 量有一个清晰的、可靠的评价标准。由于这个问题还只是刚刚出现,所以我们有机会设立一个全球统一的、标准化的评价体系对目前现有的以及将来即将出现的测序 仪进行评价。我们希望避免再次发生类似过去几个芯片厂家之间进行数据比较的尴尬局面。对于测序仪的应用范围进行标准化的质量评价也是有好处的。比如评价从 头测序的质量、评价测序结果与参考序列的相似度、评价测序仪发现突变以及多态性的能力以及对测序仪在进行大规模测序项目研究时的质量可靠性进行评价等。表 7列出了几项应该被重点评价的项目。

这些质量数据都应该以一种简单、标准化的方式包含在测序结果中。现在所有的测序仪器生产商也都在他们的测序报告中加入了测序质量信息,消费者可以借 此对数据进行交叉比较,甚至还有可能各取所长,将不同测序仪的测序结果整合起来,获得最佳的测序结果。目前,旨在从短片段测序结果中发现多态性以及突变位 点的重测序项目经常会依靠“主要投票机制(majority voting scheme)”。该方法易于操作,但是容易出错,假阴性率较高。诸如Brockman小组和Quinlan小组开发的,更多更好的用于发现单核苷酸多态 性的方法是将误差率与单个碱基信号联系起来,即误差率与测序质量和序列内容相关,这样就能获得更准确的结果。我们估计,像phred样质量值之类的评价体 系以及“第三方”算法的不断发展,最终一定会诞生一个很好的发现多态性的工具。

2.2 用于分析数据的软件以及生物信息学工具

虽然这些软件和工具都还没有完全商业化,但我们还是能获得一些软件用来分析新一代测序仪的测序结果(表8)。这些软件和工具的功能主要集中在4个方面(表9)。

序列比对和组装是一个颇受关注的问题。虽然BLAST和BLAT等序列比对工具对于长片段的序列比对来说非常有用,但是它们不适合新一代测序仪获得 的短片段序列。因此,有大量的针对短测序片段的比对工具出现,这些工具中允许错配或者空隙出现。这些工具中有些借鉴了非常成熟的序列比对算法,例如 Smith-Waterman算法等,不过还是有很多新的专门针对短序列片段的算法出现。比如SOAP就是这样一种新型算法,这个软件包能非常有效地进行 有空隙或者无空隙的序列比对。该软件包使用了一种内存密集种子(memory-intensive seed)算法和查表格(look-up table)算法来加快比对速度,同时能够对最容易出错的3’端序列进行反复调整。

其它用来加速比对过程的方法还包括“字节编码(bit encoding)”技术。该技术能将序列信息压缩成计算机信息,这样更利于计算机管理和分析。越来越多的比对软件在进行比对时开始考虑数据质量,比如能 处理Solexa测序仪测序结果和SOLiD测序仪测序结果的MAQ软件,以及能用最新的“字符空隙转化成彩色空隙(color-space to letter-space)”的Smith-Waterman算法对SOLiD测序仪的双碱基编码测序结果进行分析的SHRiMP 工具(http://compbio.cs.toronto.edu/shrimp/)。

和序列比对算法的进展情况不同,如何将相对低质量的短片段序列从头组装起来还是一大难题。不过,已经有好几种组装工具开始投入使用了。对于这种短片段序列的从头组装工作来说,配对序列对于整个工作的成功与否影响最大,因此已经有人开始利用配对序列设计新的组装工具了。

2.3序列数据出版、发行、组织存档原则

目前对于如何组织、存档以及发布这些新一代测序仪产生的短片段序列结果正处于热烈的讨论之中,人们希望制定一个类似芯片试验 (microarray  experiments,http://uhts.lbl.gov/)时制定的MIAME(Minimum  Information About a Microarray Experiment)规则。这些早期的工作经验在如何处理包括生物学注释信息、临床原始数据、关键试验细节(比如样品特征、样品处理方法)在内的元数 据,以及如何处理、出版发行这些数据等方面给了我们良好的建议。如何对这些新一代测序仪的测序结果数据进行公共管理也是一个需要探讨的问题。NCBI最近 专门为短片段序列建立了数据库Short  Read  Archive(SRA),并同步制定数据提交格式。SRA数据库不仅会收集包括实验注释信息、试验参数等信息的数据,而且还会被整合到Entrez查询 系统当中。目前的工作主要包括开发线上搜索工具、数据图形化工具,这些工作有望在近期完成。

3. 新一代测序技术的前景

在2007年6月,James Watson的基因组序列登录到了GenBank数据库当中,这是第一次使用非Sanger测序法获得了人类个体基因组序列,并且第一次将个人基因组序列 公之于众。整个测序过程在两个月之内就完成了,花费不到100万美元,这只占耗时10年之久的人类基因组计划使用经费的千分之一,同时还是2007年5月 在网上公布结果的Venter基因组计划费用的百分之一。我们比较了454测序仪最初的技术参数(每次可以获得两千万碱基序列,测序长度100bp,准确 率96%)和用于对James Watson进行测序时的技术参数(每次可以获得一亿碱基序列,测序长度250bp,准确率超过99%),结果发现摩尔定律真的适用于基因组测序领域。

454测序仪和其它的新一代测序仪(图7)一起,展示出了小型化技术和并行处理技术的威力,它们提高了处理通量,降低了测序费用。除了引领新一代测 序技术的发展之外,454公司的研发团队还开发了体外DNA文库构建、模板扩增等技术,而且这些技术现在都已经被市场上其它新一代测序仪所广泛使用。很 快,随着计算机技术的飞速发展,个体基因组测序的费用将会由100,000美元降低到10,000美元,继而降低到1,000美元甚至更低。
个人基因组时代马上就要到来了!

从费用角度、适用范围和限制性来说,传统测序仪和新一代测序仪之间具有明显的差距。因此,对于每一个具体的项目来说,都需要仔细考虑,选择出最合适 的测序仪。传统的Sanger测序法适用于对kb~mb长度的DNA片段进行的小规模的测序项目。Sanger测序法相比新一代测序法而言具有极大的“间 隔尺寸(granularity)”,既能用于大型项目也能用于小型项目。虽然与传统测序仪相比,新一代测序仪在某些方面很明显地处于劣势,比如在测序长 度和准确率方面,但即便如此,在处理大规模的测序项目时大家还是倾向于选择新一代测序仪。

看看新一代测序仪对以往使用传统测序仪进行的生殖细胞突变和体细胞突变研究的帮助就可以认识到它们的作用有多么强大。在这项研究里,使用 Sanger测序法除了试剂这一项费用之外,其它的费用也远远高过了使用其它新一代测序仪。这些其它费用包括在96孔板或384孔板中处理样品的费用、电 泳费用、大量的生物信息学处理费用以及设备维护人工费用等。研究人员最近对100份样品中的100个基因使用传统测序方法究竟需要花费多少费用进行了一次 非正式的调查,假设每个基因平均由10个外显子组成,结果发现整体费用在30万美元至100万美元不等,价格依据测序单位是非盈利的基因组测序中心还是商 业化的测序服务机构而不同。很显然,这么高昂的费用对于任何一个实验室来说都是难以承受的。新一代测序仪除了能将测序费用降低好几个数量级之外,它们还具 有所需仪器设备少的优点,不过新一代测序仪在后续数据处理方面会碰到问题。

各款新一代测序仪之间也有非常明显的差异(表10),它们都有各自“拿手”的绝活(表11)。有一些测序项目,比如重测序 (resequencing)对于测序仪的测序长度要求就没有从头测序的要求高。对于需要依靠标签计数(tag counting)的测序项目,例如在定量分析蛋白质与DNA之间的相互作用时,我们就会更加需要能将待测片段分割成尽量多、尽量小片段的测序方法。测序 的准确度和各自相对拿手的项目,比如是善于发现插入、缺失突变还是善于发现碱基替换突变也是需要着重考虑的问题。另外,在进行从头测序或发现结构性变异的 研究时使用的配对测序法已经广泛应用于各种新一代测序仪当中。这时,这些配对的模板片段在芯片上的分布情况,比如相互之间的距离远近等就是需要重点考虑的 问题了。

注:DNA测序领域的快速发展使得对各类测序方法的价格及读长的评估在很短时间内便失去意义。Roche Applied Science、Illumina及Applied Biosystems公司目前都在不断推出新的产品。表中列出的测序费用只是对使用的反应试剂费用的一个估算。测序长度指的是单链长度。

最后,需要考虑的当然是价格因素,各个新一代测序仪的费用都不相同,作为消费者,当然希望各个测序仪生产厂家之间的竞争更加激烈一点。单纯比较每个碱基的测序费用是一个不错的选择方法,不过有时这也会误导我们,比如准确率更高的方法当然费用会高一些。

5. 总结

过去几年间,新一代测序技术获得了突飞猛进的进展,同时有好几款使用大规模平行循环芯片测序技术的测序仪得到了广泛的应用。这几款测序仪虽然使用的 技术有所差异,但是在测序数据的质量和数量方面都有着同样的特征,因此也都面临着同样的试验设计、数据分析和注释的问题。不过,这些新一代测序仪将以往的 测序费用降低了好几个数量级。鉴于此,以前只有大型测序中心才能够开展的项目,现在在小型实验室里也能顺利进行了。由于新一代测序仪的出现,测序研究领域 也开始升温,有些研究团队正在努力开发新的测序技术希望能够取代现有的新一代测序仪。按照目前的发展速度,我们很难估计几年之后的情况。不过,能够预计的 是,下、下一代或者说是第三代测序仪一定会像十年前的芯片技术一样,迅速地普及开来,从而成为常规的技术。希望人们不仅关注测序技术本身的发展,更加关注 如何利用测序技术来揭开生物学和医学上的众多谜团。

原文检索:
Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology, 26(10):1135-1145.
Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.

四、新型纳米孔测序技术

新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,因而可 以在此基础上使用多种方法来进行高通量检测。此外,纳米级别的孔径保证了检测具有良好的持续性,所以测序的准确度非常高。对于长达1,000个碱基的单链 DNA分子、RNA分子或者更短的核酸分子而言,根本无需进行扩增或标记就可以使用纳米孔测序法进行检测,这使得便宜、快速地进行DNA测序成为可能。如 果对现有纳米孔测序法进行进一步发展和改进,那么它将有望成为第三代测序技术(也可称为下、下一代测序技术),从而帮助人们实现24小时内只花费 1,000美元完成二倍体哺乳动物基因组测序这一目标。

一个盛满电解质溶液的容器被一纳米孔膜隔成两半,如果施以比较小的电压,如约100mV电压,就能使用标准的电生理检测手段测量通过纳米孔的电流大 小。很多生物电通道的开关都是靠小肽段分子是否堵塞通道来实现的。基于这个事实,加州大学圣克鲁兹分校(University of California Santa Cruz, UCSC)的Deamer和哈佛大学(Harvard University)的George Church都不约而同地提出一个构想:如果DNA分子或者RNA分子也能堵塞某个通道,那么应该可以运用上述方法来检测电流。接下来,Deamer和 Branton等人证明了单链DNA和RNA分子能通过蛋白质组成的孔道,并且能检测到它们通过这种纳米级孔道时所造成的电流改变(图8a)。他们使用的 孔道蛋白是金黄色葡萄球菌α溶血素(Staphylococcus aureus toxin,α-hemolysin)。这种蛋白以前曾被Bayley小组用作生物传感器。Bayley小组发现,α溶血素蛋白非常稳定,即使在接近 100℃的情况下也能维持正常的功能。Deamer和Branton等人发现,因为α溶血素蛋白孔径非常小,简直与单链核苷酸的直径相差无几,所以可以将 折叠卷曲的核苷酸链解开,并仅允许它以单链的形式通过蛋白孔道。单链核苷酸分子穿过蛋白孔道时会造成局部电流改变,即相比没有分子穿过时的电流强度有所减 小。基于这个现象,Deamer和Branton等人猜测,如果核酸分子中每一个核苷酸通过孔道时都能出现一种特定形式的电流改变,那么通过分析电流改变 的情况不就能知道核酸的序列了吗?

为了验证这个想法,Deamer小组、Meller和Branton小组使用好几种不同的RNA分子和单链DNA分子进行了研究,以观察它们对电流 的影响。结果发现,polyC RNA分子引起的电流强度下降比polyA RNA分子要强得多。此外,他们还发现,由30个A和70个C组成的RNA分子在序列从A转变成C时电流强度也会发生改变。不过不幸的是,这种嘌呤和嘧啶 之间的明显差异没能在脱氧核糖核苷酸试验中发现。实际上,在RNA试验中观察到的polyA和polyC引起不同形式的电流改变是由碱基堆积(base stacking)和二级结构上的差异造成的。随后,使用不同DNA同聚物(DNA homopolymer)进行试验发现,脱氧嘌呤寡聚物(deoxypurine oligomer)和脱氧嘧啶寡聚物(deoxypyrimidine oligomer)引起的电流改变差别并不大,只有不足5%。而且这种电流改变差异是由10~15个核苷酸(占据了α溶血素蛋白的跨膜区)引起的,它无法 区别单个核苷酸引起的电流改变之间的差异(图8a)。

虽然这些最初的纳米孔实验并没有获得预期结果,但它们至少显示出纳米孔在单分子技术方面的应用优势,例如高度的敏感性,同时也带动了纳米孔核酸分析 技术的研究热潮,并在理论及实验方面取得了一些成果。自从发现在电场力作用下,长达1000个碱基的单链DNA分子也能通过纳米孔之后,人们就更加坚信, 廉价的纳米孔测序技术一定会成为现实。与此同时,与纳米孔有关的研究更是大大增加。曾有人使用液态双分子层(lipid bilayer)构建蛋白质孔道,最近还出现了固态材料或塑料材料的纳米孔道。事实上,一直为10年内完成1,000美元检测个人基因组这一目标努力的美 国国家人类基因组研究所(NHGRI),已经给纳米孔测序研究提供了好几笔经费了(详见http://grants.nih.gov/grants /guide/rfa-files/RFA-HG-04-003.html,图9)。

尽管纳米孔技术是好几项单分子应用技术的基础,但DNA链具有的长度还是成为采用纳米孔技术进行测序的一个障碍。此外,随着目前合成测序法 (sequencing by synthesis, SBS)技术正在不断发展,并且费用越来越低,那是否还有必要继续研究纳米孔测序技术呢?这也正是目前大家对纳米孔测序技术的一个疑问,人们希望更多领域 的科学家和研究人员可以共同参与讨论,提出合理的解决方法。

1. 纳米孔测序技术的特点

纳米孔测序技术一个最突出的优势就是便宜,尤其是在样品准备阶段几乎不需要耗费什么试剂,而且也不需要像别的测序方法那样使用核苷酸、聚合酶或连接 酶等等。因此,纳米孔测序技术要比传统的直接测序(direct strand sequencing)、Sanger合成测序法或其它方法的费用低得多,也比最近开发出的大型高通量测序仪,如罗氏公司的454、Illumina公司 的Solexa、Applied Biosystems公司的SOLiD、Helicos公司的HelioScope等要便宜。与上述所有技术都不同,纳米孔测序技术根本无需纯化的荧光素 试剂,也无需进行DNA扩增,因此不仅省去了试剂的费用,还省去了克隆、扩增的时间,真正做到了省时又省钱。

一台理想的使用电检测技术的商业化测序仪需要由以下两个部分组成:一次性的检测芯片(disposable detector chip),该芯片整合有纳米孔芯片、微流体系统、电子探针系统等;以及一套可以控制试验操作并分析试验数据的便携式工作系统。假设一个芯片能对一个人的 全基因组进行测序,那么这一次检测的费用就只包括制备DNA样品的费用、设备使用费和一次性芯片的费用。

理论上说,使用纳米孔测序仪只需要用不到1μg(即从不到106个细胞中提取的不到106个基因组拷贝)的基因组DNA样品就可以获得六倍的序列覆 盖量。不过,在实际操作过程中可能需要108个基因组拷贝,这样才能保证在25μl~50μl的操作体系中达到足够的检测浓度。

人类108个基因组拷贝大约相当于700μg人类二倍体基因组组织,这点DNA可以用商业化的试剂盒直接从血液等组织中抽提出来,抽提一次的费用只需要不到40美元。

在纳米孔测序过程中,长约6×109的二倍体哺乳动物基因组会被分割成长约50,000碱基的单链DNA分子分别进行测序。这种一次检测 50,000个碱基的能力大大方便了后续序列拼接阶段的工作。如果纳米孔测序技术真的能够只需要一点点样品,同时还不需要对样品进行标记等操作的话,那么 检测一次的费用就只包括芯片的费用和仪器使用费,这绝对不会超过1,000美元。不过,要实现这一美好的目标,目前还存在几个问题需要克服。

2. 发展纳米孔测序技术可能会碰到的问题

现在,基于纳米孔技术已经发展出了好几种检测碱基的方法。下面将列举几种,目的不是介绍测序方法,而是为了详细说明纳米孔测序技术会碰到的主要问题。

当单链DNA穿过生物纳米孔道或固态纳米孔道时检测电流。尽管如上所述,已经有试验清楚证明了可以通过检测电流强度改变的情况来区分不同的多聚核苷 酸分子,但到目前为止,还没有一种生物纳米孔或人工纳米孔能有一个非常合适的几何学结构,可以让人们在多聚核苷酸分子穿过纳米孔时检测单个核苷酸造成的电 流改变。人们目前可用的这些纳米孔都太长,没有一个长度短于5nm,而太长的纳米孔通道会造成一次有10~15个碱基的单链DNA分子穿过,所以无法对单 个碱基分子进行检测。即使“无限短”的通道也无法达到所需的分辨率,这是由于电场区域决定了通道电子读出的区域,电场区域会向通道两侧各扩展大约一个通道 直径的长度。因为纳米孔的直径要能允许单链DNA分子(直径约1.5nm)通过,而电流的分辨率只能达到3nm,这就决定了只检测电流强度的变化无法达到 “空间”上的分辨率要求。而且单链核苷多聚物在150mV的电场中,以大约1个核苷酸/μs的速度通过纳米孔。但是要达到在皮安(pA)电流水平上检测单 个核苷酸的精度就需要延缓单链核酸分子通过纳米孔的速度,至少要超过1msec以上。

虽然使用纳米孔无法区分DNA链中相隔仅0.4nm的相邻核苷酸,但如果纳米孔技术和杂交测序技术结合起来,那么测得的粗略的电流改变信息就能用于 核酸分子测序。所谓杂交测序,就是通过大量已知序列的探针与待测样品杂交,然后根据产生的杂交图谱排列出靶DNA的序列。不过在杂交测序时,与待测样品结 合的探针的位置和数量都必须弄清楚,但是仅靠杂交测序是不能得到这些信息的。而纳米孔测序技术就很容易区分单链DNA和双链DNA了,所以也就能很好地判 断被探针杂交的位置和数目。因此,如果能将这两种技术结合起来,就能实现准确的测序了。实际上,这也正是杂交辅助纳米孔道测序技术 (hybridization-assisted nanopore sequencing, HANS)的原理。不过,目前HANS技术还存在两大问题(表12)。

依次从DNA链末端切割碱基,以检测这些碱基逐个通过纳米孔道时引起的电流变化,用这种新方法来测序。Keller等人当初认识到可以使用核酸外切 酶逐次水解DNA末端的脱氧单磷酸核苷(deoxynucleoside monophosphate, dNMP),然后逐个识别这些dNMP,这样就可以对DNA链进行测序了。但当时苦于没有好的办法确认这些未被标记的dNMP,所以阻碍了这种测序技术的 发展。现在,纳米孔技术的发展给这种测序技术带来了重生的曙光。研究发现,α溶血素与一个氨基化环糊精配体(aminocyclodextrin adaptor)结合之后(即在α溶血素孔道内共价结合上一个环糊精),就可以识别未被标记的碱基了。基于这项研究成果,英国牛津纳米孔技术公司 (Oxford Nanopore Technologies)最近成功地将一个氨基化环糊精配体共价结合到了α溶血素孔道内(图8b)。当一个dNMP通过固定于脂质双分子层中的α溶血素 氨基化环糊精孔道时,跨孔电流强度会发生四种改变,即每一种dNMP通过纳米孔道时都会引起一种特定形式的电流强度改变,因此,可以通过测量电流强度的改 变来判断究竟是哪一种碱基(A、T、G、C)通过了纳米孔。另外,由于电流强度的改变非常明显(因为碱基堵塞纳米孔和未堵塞之间,电流强度差异特别大), 所以也就可以准确的判断出有多少个碱基通过纳米孔了。现在,对于这种纳米孔测序技术来说,最重要的是如何保证被核酸外切酶依次切下来的碱基能100%依次 通过纳米孔。由于该方法采用纳米孔来识别释放的dNMP,而不是通过对完整的DNA链上的碱基进行鉴别,因此,这种逐次“阅读”碱基的方式能否如实反映 DNA链中碱基的真实顺序就显得尤其重要了。最后,选择哪种核酸外切酶也是很重要的一步。可以采用将核酸酶和α溶血素基因剪接在一起的重组片段,或者采用 化学方法将核酸酶与α溶血素结合在一起,从而确保释放的dNMP能够通过纳米孔。这种核酸外切酶应该具有可持续性、检测时低噪音,以及同时能在高盐环境下 工作的特性。最好这种核酸外切酶能够切割基因组双链DNA,而且易于操作。

纳米孔测序技术使用了信号转换技术和光学读出技术。纳米孔测序技术还有另一个发展方向,就是将DNA序列信息转换成两种颜色的图形信息,然后再通过 光学读出技术进行检测、分析。然而,要将荧光探针标记到DNA链中的每一个碱基上是非常困难的工作。于是人们开发出了一种新的方法,用两种不同的12碱基 寡聚体(12-mer oligos)——A和B,按照四种不同的组合方式(AB、BA、AA、BB)将A、B组合起来(图8c),这样就可以对DNA链中的每一个核苷酸进行替 换了。因为单个核苷酸通过纳米孔的速度实在是太快了,完全无法进行检测,所以将单核苷酸替换成这种长一点的寡聚体,可以减缓通过速度,方便检测。同时,通 过这种信号转化还将DNA链中原本的四种信号A、T、G、C简化成了A、B两种信号。

挪威Lingvitae公司(http://www.lingvitae.com/DPTutorial.php)已经成功开发出了一种自动化的、 大规模并行处理方法。该方法可以在24小时内将一个人类基因组序列转化成由24bp寡聚体序列组成的“新”序列。现在,他们还在继续努力,希望能开发出更 便宜、出错率更低、寡聚体片段更长,同时耗时更短的信号转化方法。进行这种信号转化看起来是增加了一个步骤,这好像与纳米孔测序的初衷(不需要进行标记等 额外操作步骤)相悖,但实际情况是,由于增加了这个步骤极大地简化了后续的信号(序列)读取工作,而这点恰恰是令其它测序方法头疼不已的大麻烦。

使用两种能分别与A、B互补的12bp长的“分子信标”(molecular beacon)(详见http://www.molecular-beacons.org/Introduction.html,杂交过程见图10)与经 过上述信号转化之后形成的新DNA链杂交。分子信标由于自我猝灭(self-quenching)机制的作用,在溶液中的荧光背景信号极低(图8c)。

同样,当分子信标与新DNA链杂交之后,由于临近信标间存在相互猝灭作用,所以荧光信号依然很弱(图8c)。但当杂交链通过直径不到2nm的纳米孔 时,与新DNA链互补结合的寡聚体会脱落,并释放出荧光信号,只需依次检测这些荧光信号就能对原始DNA链进行测序。将高密度纳米孔芯片技术、光学读取技 术、高分辨率电子倍增电荷偶联摄像技术(high resolution electron-multiplying charge-coupled device camera)结合起来,就可以同时并行处理大量数据,大大提高测序速度。由于纳米孔不需要借助电子吸附(electrical contact)、表面修饰(urface modification)或转位过程(translocation process)等步骤就可以装载到芯片上,因此可以得到极高密度的纳米孔芯片。现在的纳米加工技术(nanofabrication)已经可以达到上述 要求了。不过,目前要生产出直径在1.7nm~2.0nm的高密度纳米孔芯片还存在一定困难。

24

当单链DNA通过嵌有探针的固态纳米孔时检测横向隧穿电流或电容。有这样一种理论认为,当单链DNA通过嵌有探针的固态纳米孔时,通过每一个碱基的 横向电流都各不相同,故根据电流情况判断出是哪种碱基通过,也就能对ssDNA进行测序了(图8d)。这种方法与前面所述的因为每种碱基堵塞了纳米孔道导 致电流减小的幅度不同来对碱基进行判断的方法不同,它是检测横向装载在纳米孔道中的一对电极对通过纳米孔的碱基施加的横向电流来判断究竟是哪种碱基通过 的。虽然在试验中该方法的效果很不错,但是还是要介绍一下有关该方法的几种不同观点。

与在扫描隧道显微镜(scanning tunneling microscope, STM)中一样,使用合适的探针(电极),可以得到纳安级(nano-ampere)的电子隧穿电流。使用这种纳安级的电流检测碱基的速度比在直径不到 3nm的纳米孔中使用皮安级的电流检测要快得多。虽然这种方法只需使用纳米孔和电流检测设备,并有望成为最便宜、最快速的测序技术,但它也面临着四种主要 的挑战(表13)。

25

不过,现在使用单壁碳纳米管(single-walled carbon nanotube)就有望解决上述第二和第三个挑战,如果对碳纳米管进行合适的改造甚至还能解决第一个挑战。纳米管能以一种独特的方式和方向与碱基结合, 而且每一个碱基的结合活化焓(binding activation enthalpie)为了便于控制DNA链通过纳米管的速度,也都处于可被温度、离子强度或偏置电压调控的范围之内。

要借助横向隧穿电流来分辨碱基还有一种方法,就是在化学修饰的金属电极和待测碱基之间形成碱基特异性的氢键。Ohshiro和Umezawa发现, 在STM中如果金属探针(电极)被A、G、C、U的硫氢基(thiol)修饰之后,电极和碱基之间的隧穿电流会被极大地放大。他们发现,使用经胞嘧啶修饰 过的探针(电极),可以区分出序列TTTTTTTTGTTTTTTTTT和序列TTTTTTTGGTTTTTTTTT。基于Ohshiro和 Umezawa的工作,Lindsay等人猜想,是否可以使用经两种不同化学修饰方法加工过的电极,令其中一组电极能结合核苷酸的磷酸基团,而另一对电极 能结合核苷酸的碱基基团(图11)。这样,在每一个核苷酸通过纳米孔中的“阅读器(电极)”时就会通过“电流距离”(current-distance) 而不是通过静态的“隧穿电流”而被检测出来。A、C、G、T四种“阅读器”中的每一种都会借助上面的功能基团与通过纳米孔的同一种碱基形成氢键。将这四种 阅读器链接在一起形成“DNA链”就可以对dsDNA链进行测序了。不过,要同时将四条dsDNA链穿过四个阅读器还是一大难题。

26

还有人提出可以将金属氧化硅电容和纳米孔技术结合在一起通过对DNA进行静电检测以达到测序的目的。透射电镜(transmission electron microscope, TEM)发射的电子束可以将纳米孔固定到两层掺杂硅构成的膜上(中间被厚约5nm的SiO2绝缘层隔开)。当有DNA链穿过纳米孔时,可以检测到两层硅膜 间电容的静电势和电压发生了改变。仿真结果表明,A、C、G、T都有其各自独特的电容信号,因此从理论上来说也可以通过这种方法进行测序。在早期的一次试 验中发现能够检测到DNA链通过纳米孔时引起的电压变化,但是由于时间太短,还无法区分出单个的碱基。目前,该方法面临的主要问题也是如何控制碱基通过纳 米孔时的速度和方向。

3. 获取较长的测序长度

纳米孔测序技术还有一个非常吸引人的优势,那就是测序距离长。因为纳米孔测序仪对通过的每个碱基进行测序,与前后的测序结果都无关。因此从原则上来 说,使用纳米孔测序技术,只要DNA链不发生断裂,并且能一直通过纳米孔,就可以一直检测下去。到目前为止,人们已经证明,长达25kb的ssDNA能够 一次性通过生物纳米孔,长达5.4kb的ssDNA能够一次性通过固态纳米孔。因此,如果检测技术能得到进一步的改善(能检测快速通过纳米孔的碱基),纳 米孔测序技术还是具有非常好的应用前景的。虽然现在还无法确切获悉纳米孔测序技术的准确度有多高,但可以确定插入、缺失等序列错误不会影响片段的读出长 度,因为相移在独立的单分子读序中并不是一个问题。只要所测序列是随机的,而不是系统的或具有位点依赖性的,那么足够高的序列覆盖率便可以保证任何水平的 准确度。

此外,虽然目前的第二代测序仪的测序长度较短,但它们具有高通量的优势,因此可以将纳米孔测序技术和这些第二代测序技术结合起来,以弥补第二代测序仪在测序长度方面的不足。

考虑到在未来的测序技术发展趋势中,测序长度是至关重要的一个指标,因此还需要进一步研究,以弄清纳米孔测序技术在检测ssDNA时测序的极限长度 是多少。纳米孔测序技术在检测单链寡聚物(不到50个碱基)时可以进行高通量检测,此时核酸链通过α溶血素纳米孔的速度大约是5.8个低聚物/sec μM。因为核酸链大分子穿过纳米孔的速度与其在溶液中的摩尔浓度有关,而摩尔浓度又不能太高以免溶液太粘稠,因此还需要进行试验验证50kb长的 ssDNA是否能以一个合适的速度通过纳米孔。已经有几篇论文报道指出,使用直径约3nm~6nm的纳米孔能够检测长约3kb~10kb的ssDNA及 dsDNA片段(核酸分子的浓度在10nM~20nM之间),不过文章中都没有提及核酸分子通过纳米孔的速度。此外,虽然Branton等人已经证实了 48kb的λ-DNA可以通过纳米孔,但是使用最新的纳米孔捕获及再捕获技术对长基因片段进行测序时的效率更高。纳米孔捕获及再捕获技术对于提高测序质量 非常重要,因为借助这种技术就可以对同一个碱基进行反复测序。当碱基初次通过纳米孔时,如果检测信号质量不高,实时监测软件就会“命令”该碱基再次通过纳 米孔并重新接受检测,直至获得满意的信号为止,而不需要重新准备样品,从头再测一次。

4. 控制DNA通过纳米孔

DNA高速通过纳米孔的特性使得高速测序成为可能,但同时这种高速度也正是很多纳米孔测序技术的“阿喀琉斯之踵(‘Achilles’ heel,意即弱点)”。因为速度太快,检测的信号质量就不高,甚至很多小的信号根本就检测不到。在120mV的条件下,DNA会以每个碱基 /1μs~20μs的速度通过α溶血素纳米孔。这就需要探测器的检测带宽达到MHz级,才能检测到皮安级的电流强度。

当DNA在电泳作用下通过纳米孔时,由于扩散作用的影响,降低了测序的质量。由于DNA分子的随机运动使得它通过纳米孔的时间,即通过时间 (transit time)的跨度非常大(这一点从理论上和试验上都已经证实了),因此,人们无法判断有多少碱基通过了纳米孔。而且,由于跨孔DNA分子与纳米孔表面间存 在的非特异性的相互作用还会受到非连续性的粘滑现象(discontinuous stick-slip phenomena)影响,所以相互作用会发生改变。这种相互作用改变的本质和频率会引起“逃避时间(escape time,解离时间)”发生非泊松分布(non-Poisson distribution),于是,同一种碱基分子通过纳米孔时的通过时间也会不同。而且,如果碱基分子通过纳米孔的时间小于平均通过时间,那么它极有可 能被漏检。

鉴于此,对于纳米孔测序技术来说,最为重要的一点就是如何控制并减慢DNA分子通过纳米孔的速度,同时尽量消除由于纳米孔表面相互作用给DNA分子 跨孔动力学上造成的波动现象。降温和增加溶液的粘稠度可以在一定程度上减慢DNA分子通过纳米孔的速度,但这两种方法都不能消除因纳米孔表面相互作用造成 的跨孔动力学波动现象。真正能降低DNA跨孔速度的方法见表14。

27

上述这些限速步骤所达到的速度都在每个碱基/数毫秒级,同时还都会受到离子强度、温度以及跨孔偏置电压的影响。

最理想的状态是,如果能发现一种电信号来代表碱基间的“空隙”,那就能清楚地知道有多少个碱基通过了纳米孔了。这种信号对于分析跨孔动力学和碱基孔 内停留时间等都具有很高的使用价值,而且可以据此来决定测序仪的检测带宽和其它参数。但在该信号出现之前,人们还需弄清楚DNA的跨孔动力学,同时还要开 发出控制DNA跨孔速度的办法。纳米孔制造技术的发展使得我们能够制造出特殊的纳米孔,这些纳米孔的背景噪声很低,而且能够调控DNA与纳米孔表面的相互 作用。最终,将DNA跨孔速度控制技术、高带宽技术、低噪声检测技术结合在一起,就能制造出高速纳米孔测序仪了。

5. 生物纳米孔的稳定性问题和固态纳米孔的制造问题

溶血素七聚体(hemolysin heptamer)是最常用于在脂质双分子层中制造生物纳米孔的材料,它性质非常稳定。但脂质双分子层的性质却不那么稳定,尤其是液态脂质双分子层,制造起来极难且费时。

Bayley等人发现包裹在两层薄琼脂糖中的装载有α溶血素纳米孔的双分子层非常稳定,可以被装到特氟隆薄膜(Teflon film)中储存数周之久。同时他们还发现,α溶血素纳米孔可以被顶端是琼脂糖的塑料或玻璃探针装载到上述双分子层组成的芯片上。另一种稳定双分子层的方 法是使用纳米级的孔径而不是微米级的孔径。试验证明,在玻璃毛细管末端的直径为100nm~1,000nm的双分子层在包被有特殊硅烷化剂 (silanizing agent)的条件下能保持稳定达两周以上。

使用离子束雕刻(ion beam sculpting)、电子束钻孔(e-beam drilling)和原子层沉积(atomic layer deposition)等方法可以在氮化硅、氧化硅或其它金属氧化物等介质上“制作出”稳定的、有功能的固态纳米孔,不过要得到直径在 1.5nm~2.0nm的纳米孔芯片还是一件非常困难的工作。现在,人们已经可以制作出装载有用于检测隧穿电流探针的纳米孔,但是目前的纳米孔制作工艺非 常繁琐,速度慢又耗费人力,而且制作出的产品还常常无法达到应用的要求。毫无疑问,随着纳米电子学领域的不断发展,人们一定会制造出高质量的纳米孔芯片。 但是,直到纳米孔测序技术被证明是可行的那一天为止,纳米孔测序研究领域的科学家都会一直面临一个问题,那就是只能使用科研设备,而不可能使用大量生产的 商业化设备。

对于某些纳米孔测序技术来说,最稳定的纳米孔可能是固态纳米孔和α溶血素纳米孔的“杂交体”,即在氮化硅之类的人工膜上做出5nm左右的纳米孔,同时也装载上α溶血素纳米孔。如果这种方法可行,那么该杂交纳米孔就既有高度的重复性又有无限的稳定性。

6. 结论

如果纳米孔测序技术能够成功,那么它将是非常好的一种新的测序技术,因为它具有以下优点(表15)。

29

因此,一个成功的纳米孔测序仪其测序费用应该非常低廉,极有可能达到NIH设定的只用1,000美元就能完成个人基因组测序的目标。同时,纳米孔测 序仪本身不会太贵。如果能在一个测序芯片上整合100个纳米孔以及相应的微流体系统和电子探针系统,那么对一个人类基因组进行六倍覆盖率的测序也只需要一 天的时间。不过,纳米孔测序技术还是面临着很大的问题。短期内的一个主要问题就是如何减慢DNA通过纳米孔的速度,使每一个碱基通过纳米孔的时间从微秒级 上升至毫秒级。

最近,有研究结果表明DNA酶处理能起到减缓的作用。如果纳米孔测序仪用到了溶血素七聚体,那么就还需要与之相配套的稳定载体。目前,这方面的工作 也取得了一定的进展。不过从长远来说,人工合成的固态纳米孔似乎更适合商用。人们可以通过监测隧穿电流或电容的改变来“读取”每一个通过纳米孔的碱基,不 过这种方法是否切实可行还需要进一步验证。还有一个一直存在的问题是:不论用哪种检测方法,DNA分子在通过纳米孔时发生的随机运动都会增加背景噪声。

综上所述,纳米孔测序技术具有非常诱人的应用前景,因此我们还得继续努力研究下去。而且随着研究的深入,我们越来越坚信,纳米孔测序技术一定会成功的。

原文检索:Daniel Branton, David W Deamer, Andre Marziali et al. (2009) The potential and challenges of nanopore sequencing. Nature Biotechnology 26(10): 1146-1153.

五、更多阅读

1. 核糖体印记与深度测序技术

将核糖体图谱(ribosome profiling)和深度测序(deep sequencing)相结合,研究人员可以从基因组水平监测蛋白质的翻译状况。

深度测序的强大功能对生物学研究的各个领域都产生了极大的影响。在诸如全基因组测序 等方面,新技术的高效性和经济性使人们得以以一种以前无法想象的方式进行试验研究。而在另一些情况下,例如RNA测序时,借助深度测序可以进行更多的定量 分析,获得更大的动态范围。在另一些研究中,例如最近由美国加州大学(University of California)的Jonathan Weissman小组发表的有关翻译图谱(translational profiling)的研究中报道的那样,深度测序不仅是一个有效的定量手段,同时还能提供很多有用的新信息。

使用核酸酶消化mRNA时,在翻译过程中发挥作用的核糖体结合并保护了大约30bp 的mRNA片段。Weissman等人将细胞中这些被保护的mRNA片段构建成DNA文库,再使用Illumina公司的测序仪对文库中所有的片段进行测 序,最终得到了一幅有关细胞中蛋白质翻译情况的完整“画卷”。

这种方法可以应用于很多方面。首先,它能广泛地用于蛋白质组研究当中。正如 Weissman说道的那样,“对于像人类一样复杂的基因组,你真的无法解释清楚细胞表达出来的多肽是什么。而这种新方法刚好给了你一个客观的、全面的机 会去弄清楚这些多肽。”现在,Weissman等人正在使用这种新方法研究酵母,因为酵母比较简单,同时也被研究得比较透彻,因此相对来说比较容易研究。 但是从理论上来说,该方法是可以应用到其它任何一种物种中的。另外,将该技术与标记有抗原表位的核糖体(epitope-tagged ribosomes)结合使用,还有可能用于研究组织特异性的蛋白质翻译(tissue-specific translation)。Weissman说道:“我认为该技术会将分子神经解剖学(molecular neuroanatomy)一类的学科引向新的纪元。”

其次,在检测蛋白质表达情况时,使用核糖体图谱技术相比检测mRNA丰度来说更准 确。研究人员借助核糖体图谱技术为胞内数千种mRNA构建了核糖体印记密度图谱,并通过这些数据获得了蛋白质翻译表达速度方面的数据。据这些研究人员报 道,使用蛋白质翻译表达速度方面的数据来判断蛋白质丰度要比用mRNA丰度来预测准确得多。Weissman说道:“对我们来说,定量蛋白质组学 (quantitative proteomics)最大的好处就是能客观评价人们的工作究竟做得好不好。”实际上,如果对结合在mRNA链5’ 端的核糖体数目进行进一步的修正,就能更准确地预测出蛋白质的丰度。

核糖体图谱还可以用于翻译控制(translational control)分析。Weissman等人正在使用该技术对饥饿酵母胞内的翻译反应(translational response)进行研究。毫无疑问,该方法也可以用于高等生物应激或疾病状态下的蛋白质合成反应控制情况。

核糖体图谱技术还具有很高的空间准确性(spatial precision),能准确地反映出究竟是哪一个阅读框被翻译了。因此,可以使用该技术研究程序性框移(programmed frameshift)和终止密码子通读(stop-codon readthrough)等现象。Weissman等人最近在酵母中的工作还发现,该技术可以发现mRNA 5’ 端非编码区的异常翻译情况。

正如Weissman对核糖体图谱技术的总结一样,“我们现在能直接得到全面的、高质量的蛋白质翻译速度方面的数据。通过这些数据我们可以知道哪种蛋白质表达了以及表达了多少。同时,我们还能很方便地对翻译过程本身进行研究。”

原文检索:Natalie de Souza. (2009) Deep sequencing of ribosome footprints. Nature Methods 6(4): 244-245.

2. 如何将数十亿的短片段测序结果定位到庞大的基因组序列当中

随着新一代测序仪的出现,人们获得了大量的短片段序列,如何对这些短片段作图就成了一个大问题。现在有什么办法可以解决这个问题呢?上述办法又是基于何种原理工作的呢?

新一代测序仪可以以极快的速度以及极其低廉的价格获得大量的序列,这已经改变了基因 组学的面貌。这些新测序仪一经出现,马上就成为了全基因组测序的主力军,广泛应用于各种测序相关的实验检测,包括基因表达谱检测、DNA与蛋白质相互作用 检测和RNA剪切研究等。例如,它们可用于对RNA进行测序,即先通过逆转录将其变成cDNA,然后再对cDNA进行测序,这样就能发现一些未知的基因, 并据此发现新的RNA剪切方式。也可以将测序技术应用于ChIP,弄清楚与蛋白质共沉淀的DNA片段的序列。这种方法能用于研究转录因子与DNA调控元件 之间的相互作用。此外,对肿瘤细胞全基因组测序也能发现一些新的致癌突变。

但在新一代测序仪带来方便的同时也带来了问题,即被称为“阅读片段作图(‘read mapping’)”的问题。美国Illumina公司、Applied Biosystems(ABI)公司和Helicos公司等开发的测序仪在测序时产生的都是长约25bp~100bp左右的小片段序列,即“read”。 这些小片段都是待测样品大片段的某一部分。与对未知的全基因组进行测序,即与将所有小片段组装成一个完整基因组的工作相比,人们现在大部分的工作实际都可 以参照“参考基因组”(也称“模式基因组”,小词典1)进行。因此,要了解小片段“read”的作用,首先要知道它们在参考基因组中的确切位置,而对这些 小片段进行定位的过程就称作“作图”(mapping),或 “定位”(aligning)到参考基因组中。在作图中,有一个问题需要注意,那就是进行定位(本文将在后面的“短片段作图软件”一节中对此做详细介绍) 时不能出现大的“间隙”。而在对RNA进行测序时,因为存在内含子的缘故,这一点就显得尤为突出。因此,对RNA进行测序时就允许有较大的间隙出现(这将 在下文“剪切后的短片段作图软件包”一节进行详细讨论)。

当然,上述问题都不是伴随新一代测序仪的出现而出现的新问题,即使在经典的 Sanger毛细电泳测序法中也有与之相应的专门用来处理定位问题的程序。不过,这些程序既不能处理短片段测序仪获得的大量序列数据,也不能定位长度较短 的短片段序列。使用传统的BLAST或BLAT软件分析ChIP或RNA测序结果,可能会花上几百甚至几千个小时。幸运的是,人们现在有了新的分析软件。 在选择一款分析软件之前,要先弄清楚,为什么用计算机处理作图问题会出现问题?人们现在已经解决了其中的哪些问题?还存在哪些问题?还有没有其它机遇?

2.1 短片段作图

2.1.1 对短小片段作图存在哪些问题?

问题1:实际操作。如果参考基因组很大,而我们手上又有数十亿计的短片段序列,那么 该如何处理这么庞大的数据呢?如何将每一条短片段定位到参考基因组中相应的位置上?序列比对是生物信息学中的一个传统问题,有大量的文献著作介绍了各种不 同的比对方法,既有精确严格的方法也有不那么严格的方法。不过,从实际应用的角度出发,要将数十亿的短小片段定位到哺乳动物基因组大小级别的参考基因组中 需要借助效率非常高的算法进行处理才有可能办到。

问题2:处理策略。如果某个短小片段属于参考基因组里的一个重复元件,那么就应该弄 清楚它来自重复元件中的哪一个拷贝。但这是不太可能实现的,所以分析程序一般都只能给出该短片段可能属于参考基因组中哪几个位点。同时,由于测序错误或者 检测样品间以及检测样品和参考基因组间出现变异等情况,使上述问题变得更加严重。同样,在RNA剪切体作图中也存在上述问题,而且由于内含子的问题使得情 况更为复杂。

Illumina、ABI、Roche、Helicos以及其它众多测序仪生产厂家 开发的测序仪每一轮测序都能获得百万计的短片段序列,不过要对一个基因组进行完全测序则需要进行好几轮检测,这也就意味着要想获得一份完整的全基因组图谱 必须对数百万甚至是数十亿的短小片段进行作图、定位和拼接。比如,最近由Ley小组做出的癌症基因组序列就是通过132轮测序,对80亿条短小片段进行作 图后得到的结果。使用BLAST或BLAT比对法,借助大型的超级计算机只需要几天就能获得这个癌症的基因组序列结果,但这并非人人都能享有。为了能让更 多的人用更廉价的计算机也能进行类似的作图分析,人们开发了一套新的比对定位程序,使用这种新程序即使在普通的台式机上也能对数亿计的短小片段进行作图分 析。测序仪器生产厂商也会提供一些专门的作图软件,例如Illumina公司开发的ELAND程序等。本文将着重探讨第三方开发的软件,这些软件中很大一 部分都是开放源代码的免费程序。这些软件主要都是建立在这样一种算法之上,即充分利用短小DNA序列的特点来作图,而不需要依靠计算机强大的处理能力、内 存容量等条件。

2.1.2 短片段作图软件

Maq和Bowtie(见表16)都属于上述提及的程序。它们使用的是一种称作“建 立索引(indexing)”的策略。同时,人们也对大量的DNA序列建立了一份索引,借助这份索引就能快速地找到其中的短DNA片段了。Maq软件是基 于一种直接的但是很有效的策略——空位种子片段索引法(spaced seed indexing)(图12a)。它将一个短片段(read)分成了4条长度相等的更短的片段——种子片段(seed)。如果整段短小片段(read)可 以与参考基因组序列完全配对,那么很显然所有的种子片段(seed)也理所应当地应该与参考基因组序列完全配对。但如果其中有一处错配,例如SNP,那么 肯定有一条种子片段无法与参考基因组序列完全匹配。依次类推,如果出现了两处错配就会导致一条或两条种子片段无法与参考基因组序列完全匹配。因此,对所有 种子片段两两组合后的片段(共有6种组合方式)进行比对,就有可能找出该短小片段在基因组中最有可能的位点。Maq软件采用的这种“空位种子片段索引法 ”(spaced seed indexing)作图时的效率非常高。

30

Bowtie软件采用的则是另一种完全不同的策略,该策略借鉴了Burrows- Wheeler转换(Burrows-Wheeler transform)这种数据压缩算法技术,将完整的人类基因组序列索引压缩到不到2GB大小(这是当前主流台式机甚至是笔记本电脑都能达到的水平),而 空位种子片段索引法至少需要50GB。Bowtie每次都只把一段短片段序列中的一个碱基与经Burrows-Wheeler转换压缩过的参考基因组序列 进行比对(图12b)。经过这种连续的比对,最终也能找出这段短片段在参考基因组中的定位。如果Bowtie软件发现短片段中的某个碱基在参考基因组中没 有很好地配对,那么软件就会退回到上一个碱基重新进行比对。实际上,Burrows-Wheeler转换使得Bowtie软件通过碱基逐个比对,直至完成 全长短序列比对的方法解决了短序列作图的问题。从本质上来说,Bowtie软件使用的算法要比Maq采用的复杂得多,但Bowtie软件却比Maq软件分 析的速度快30倍。

31

Bowtie软件和Maq软件的默认模式中至多都只会允许两个错配位点,不过有时有 些用户需要允许更多的错配位点存在。Bowtie软件和Maq软件能够分析的短序列长度范围在20bp~40bp之间,它们都经过优化设计以使其适合用于 人类基因组再测序计划(human resequencing project)。不过,现在Illumina公司最新的测序仪已经能够获得长约100bp的“短”片段序列,还有一些测序项目,例如细菌或真菌基因组测 序项目等获得的片段序列与目前已经测得的类似物种全基因组序列之间存在着较大的差异。再加之随着新测序仪的不断涌现,测序结果的质量也在不断提高,但这些 测序结果却极易受到各种因素的影响,例如样品文库的准备、测序操作步骤、甚至是放置测序仪器实验室的温度等等。鉴于此,面对上述这些新出现的“问题”,人 们也应该采取相应的措施,调整Maq软件和Bowtie软件的各种参数使之适应这些新情况。

表16列出的是几种新的开放源代码的短片段序列作图软件,它们的安装和使用都很简单。

Bowtie软件包中包括预置的大肠杆菌基因组索引和部分大肠杆菌短片段序列。要使用该软件分析数据只需输入下面的命令就会生成一个表格式的报告,给出每一个匹配短序列的编号、在参考基因组中的位置、以及发生错配的位点个数和具体位置。

bowtie e_coli reads/e_coli_1000.fq

在Maq软件中输入以下命令也会得到同样的结果。

maq.pl easyrun -d outdir
reference.fasta reads.fastq

对于一次实验来说,短序列片段能否与参考基因组相匹配实际上取决于很多因素。假设被测序的DNA片段中几乎没有错配位点,大多数作图软件也只能定位 出70%~75%的短片段序列。这个结果和使用Sanger测序法获得的80%的结果比起来低得令人吃惊,说明现在第二代测序技术还不成熟。这提示人们, 很多短片段都需要与参考基因组中的多个位点进行比对,而大部分的作图软件都只会给出短片段在参考基因组中的一个匹配位点。

有了序列定位的软件,接下来就可以了解这些短片段具体在参考基因组中的什么位置了,同时也可知道SNP都位于基因组中的什么地方。SAM软件包能满 足这些要求。SAM软件包(http://samtools.sourceforge.net)包括一体化的碱基调用和浏览器(base caller and viewer),它能使用Maq和Bowtie两种分析软件。

实际上,大部分短片段作图软件设计的初衷都是为了服务于人类全基因组再测序工作,但是调整软件参数之后,它们也能应用于其它方面。Maq和 Bowtie这两种分析软件的操作手册都写得非常详细,它们给出的备选方案多到“吓人”的程度。现在还出现了越来越多的短片段作图软件(表16),不过每 一款软件都无法达到十全十美的境界,而且各有偏重,这就给人们选择软件及其配置参数带来了麻烦。幸运的是,人们能够得到帮助。SeqAnswers message board(http://www.seqanswers.com,图13)就是一个非常好的论坛,它是一个短片段作图软件开发人员经常光顾的论坛。最流 行的SeqAnswers线程一般都包括目前用于初步分析的软件和短序列数据可视化处理的软件一览表。

32

2.1.3 剪切后的短片段作图软件包

要将RNA的逆转录片段cDNA重新定位到基因组当中需要更加复杂的专业化算法。要将不同外显子经过剪切拼接之后生成的RNA短片段重新定位到基因组中和将一个外显子生成的RNA短片段重新定位到基因组中是完全不一样的(图14)。

在RNA逆转录产物cDNA的定位操作中用到的诸如ERANGE(http://woldlab.caltech.edu/rnaseq)这类软件 包都会用到已知基因的外显子位置和内含子位置信息作为参考。这样,ERANGE软件包就能“横跨”多个外显子构建新的参考序列,然后再调用Maq程序或者 Bowtie程序将剪切后的RNA片段定位到参考序列中了。因为这种方法不能发现新的(人们未知的)剪切模式,所以有些科研人员就使用了一种“机器学习法 ”(machine learning method)来预测新的剪切模式。该方法借助现有的参考序列注释信息在统计模型(statistical model)上进行过演练。与此相反,TopHat软件包(http://tophat.cbcb.umd.edu)则不需要借助任何注释信息,它使用的 是Bowtie软件来发现包含有短片段的外显子,然后再将余下的短片段定位到前面发现的各种外显子连接体当中。还有一款程序G-Mo.R- Se(http://www.genoscope.cns.fr/externe/gmorse)使用的也是这种策略,不过它是借助RNA测序数据而不是 通过Bowtie软件来发现外显子的。

33

2.2 局限性及存在的问题

34

现有的用于短片段作图的方法都有其各自的局限性。比如,Maq和Bowtie软件在处理插入或缺失片段时就几乎不起作用。

有些软件,例如SHRiMP(http://compbio.cs.toronto.edu/shrimp,图15)就能支持ABI公司的“彩色空 隙(color space)”测序结果,但大部分软件都是不支持该结果的。剪切后短片段作图软件同样存在类似问题,而且它们还有自己的特殊问题。例如,基于注释信息的软 件当然最多只能获得和注释信息相当的结果,但很多物种的全基因组注释信息都仅仅只是同源预测信息或计算机预测信息。如果“机器学习方法”受到错误的注释信 息“操练”的话,也不会得出好结果。

因此,对于短片段作图软件的开发设计人员来说,还有很多问题需要去解决。所有的测序仪器生产厂家都在努力得到更长的测序片段结果,现有的短片段作图 软件能应付这些“大家伙”吗?Maq、Bowtie以及其它几种短片段作图软件都可以处理长度超过100bp的测序片段结果,但这只是在特定的情况下,而 且只有原本就是针对长片段设计的软件,例如BLAT才能更好地处理这类测序结果。另外,如果测序的样品物种序列和现有的参考序列差异很大,那该如何调整作 图软件的参数呢?软件能够自动调整参数吗?这样做出来的图质量又如何呢?上述这些问题的解决方案都依赖于采用的检测方法和分析范围。不过,随着技术的进 步,相信所有这些问题很快都会被攻克的。

原文检索:Cole Trapnell & Steven L Salzberg. (2009) How to map billions of short reads onto genomes. Nature Biotechnology, 27(5): 455-457.

小词典1

“参考”基因组(‘reference’ genome)

每一个种内的物种的基因组都有数量一定且相对恒定的基因和基因排列方式,但由于某些基因或基因片段的突变形成了不同的物种。通常可以在种内以某一代表性物种的基因组作为模式基因组,以利于对其它物种的研究。这种“某一代表性物种的基因组”就是“参考”基因组了。

3. 更快——只需15分钟、更便宜——只需100美元的人类基因组测序技术即将面世

35

很快,我们就会看到最新的人类基因组测序技术问世。有了这种新技术,人类基因组测序的费用将大为降低,平均每个样品只需要花费 100美元。同时,该技术的测序速度要比目前市场上广泛应用的第二代测序技术快2万倍,而且我们可以借助该技术实时的观测到人类基因组DNA被扩增的过 程。

Stephen Turner是太平洋生物科技公司(Pacific Biosciences)的首席技术官(Chief Technology Officer),他表示,最新的商业化单分子实时测序仪(Single Molecule Real-Time sequencing,SMRT)将于2010年上市。

十年前,塞莱拉基因公司(Celera Genomics)和人类基因计划组(Human Genome Project)都花费了数年的时间才得到完整的人类基因组序列图。
但到了2008年,由于有了新一代的测序仪,所以我们只用了几个月的时间就获得了James Watson的个人完整基因组序列。

现在,有了SMRT测序仪,Pacific Biosciences公司希望可以用这款测序仪在几分钟之内完成人体基因组测序的工作。

我们在进行人类基因组计划工作时采用的研究策略,就是利用了细胞复制DNA的天然机制。

使用DNA聚合酶复制DNA链的方法获得了数十亿计,各种长度的DNA片段分子。然后在每一个片段末端都加上一小段荧光标记分子,该荧光标记分子只 能对DNA链末端最后一个碱基进行标记,然后根据DNA片段的长度将这些分子排列整齐,我们就可以像读书一样,按照长短顺序把DNA序列末端的碱基一个一 个给读出来了。

不过SMRT测序仪采用的并不是这种方法——等DNA聚合酶完成了复制工作之后再判读序列的方法,该技术采用的是实时对DNA聚合酶的工作状态进行 监测的方法,每一个DNA链分子都被吸附在小孔的底部,在DNA聚合酶复制的同时,SMRT测序仪就会实时读出每一个碱基,这样就能得到完整的序列。

在SMRT测序仪使用的每一个碱基上都带上了特有的荧光标记,一旦某个碱基掺入了新合成的DNA链,就会发出特异性的荧光信号,实时探测仪就可根据该荧光信号判断出该位点是A、C、G、T中的哪一个碱基。

发明SMRT技术的科研人员们希望能够将该技术进一步改进,成为芯片式的多通道并行处理测序仪,这样还可以进一步加快测序速度。

“如果我们能同时处理100万个片段分子,那么我们就能够在15分钟之内获得完整的人类基因组序列图,”Turner说道。

SMRT测序仪在提高测序速度的同时还能够提高测序的准确率。由于用SMRT测序仪进行测序时出错是随机发生的,也就是说每个位点出错的概率都一样,没有哪个位点会更容易出错,因此如果进行多次重复测序应该能够提高准确率。

SMRT测序仪刚刚在第51界美国医学物理学家协会年会(Annual Meeting of American Association of Physicists in Medicine)2009年工业物理学大会(Industrial Physics Forum)上第一次亮相。

原文检索:http://www.freshnews.in/coming-soon-15-minute-100-human-genome-sequencing-157761

Join the Conversation

3 Comments

  1. 带中文注释的图片都是博主自己翻译的吗?可以求大图吗?谢谢:)

Leave a comment

Leave a Reply to dolphing Cancel reply