Illumina SBS sequencing


参考自:


目前我们接触到的很多生物信息学的技术,都是基于 NGS 技术的,比如 RNA-Seq,ChIP-Seq,FAIRE-Seq,ChIA-PET,Hi-C 等等。

所谓的 NGS 就是 Next Generation Sequencing,翻译为“下一代测序技术”,或者是“第二代测序技术”。之所以这么叫,是因为相比较于第一代测序技术其测序通量有了很大的提升。

其实,二代测序比较常见的有罗氏454测序,Illumina 等。但目前最为常用的NGS技术就是 Illumina 测序技术,它能够保证在几十个小时内产生几百G甚至上T的测序数据,完全能够满足高通量测序的通量要求。并且其测序准确程度也是完全能够保证。

在目前高通量测序的科研领域,Illumina测序绝对是主导地位的,几乎没有其他的公司可以撼动它。因此,我们这篇文章就Illumina测序的原理做一个比较详细的介绍,希望对大家入门生物信息学有所帮助。


一些常用基本概念的介绍:

名称 概念
flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane
lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等
tile 每一次测序荧光扫描的最小单位
reads 指测序的结果,1条序列一般称为1条reads
bp base pair 碱基对,用于衡量序列长度
双端测序 只一条序列可能比较长如500bp,我们可以两端每端各测150bp
junction 上面说的双端测序,中间会留有200bp测不到的东西,我们叫junction
adapter 就是测序中需要的一段特定的序列,有类似于引物的功能
primer PCR中的引物

下图就是一台illumina最新的X Ten测序仪。

img

下图就是flowcell,图中黑色的小线条就是lane,每一个lane中整齐排列了无数个tile,只可惜我们肉眼看不到。

img

1. Illumina 测序

Go from sample preparation, to cluster generation, to sequencing on a system flowcell with the proprietary SBS process, through to data analysis on the BaseSpace® Sequence Hub.

包括了:

  • 样品制备(建库),
  • cluster 生成(桥式扩增,桥式PCR),
  • 测序(边合成边测序技术,SBS),
  • 数据分析

Illumina

  • Illumina, a global genomics leader, provides comprehensive next-generation sequencing solutions to the research, clinical, and applied markets. Illumina technology is responsible for generating more than 90% of the world’s sequencing data.

  • Through collaborative innovation, Illumina is fueling groundbreaking advancements in oncology, reproductive health, genetic disease, microbiology, agriculture, forensic science, and beyond.

2. Want more details?


3. Introduction to Sequencing by Synthesis(SBS, 边合成边测序技术)

illumina Sequencing by Synthesis @ YouTube

illumina测序原理 @ GitHub

  • The Illumina sequencing workflow is composed of 4 basic steps:
    • sample prep
    • cluster generation
    • sequencing
    • data analysis

Sample Prep

  • There are a number of different ways to prepare samples. All preparation methods add adaptors to the end of the DNA fragments. 所有制备方法都在DNA片段的末端添加了adaptors。

    image-20200211123736253

  • Through reduced cycle amplification, additional motifs are introduced, such as the sequencing binding site, indexes and regions complementary to the flowcell oligos. 通过减少的循环扩增,引入了其他motifs,例如测序结合位点,索引和与流通池寡核苷酸互补的区域。

    image-20200211124325543

    image-20200211124651337

    image-20200211124757070

  • 建库
    • 孟浩巍的知乎
    • 由于Illumina测序策略本身的问题,导致其测序长度不可能太长,目前最好的X Ten也就是双端各150bp,所以不可能直接拿整个基因组去测序,所以在测序的时候需要先打断成一定长度的片段,这个根据需要用不同的策略,一般测人的基因组,我们是将其打断成300 ~ 500bp的长度。这个是根据跑胶控制的。
    • 打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是平末端
    • 完成补平以后,在3'端使用酶加上一个特异的碱基A
    • 加上A之后就可以利用互补配对的原则,加上adapter,这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列
    • 进行PCR扩增,使得我们的DNA样品浓度足够上机要求
    • 建库的示意图如下图所示,引用自 http://tucf-genomics.tufts.edu/home/faq

img

Cluster Generation

  • Clustering is a process where each fragment molecule is isothermally amplified. clustering 是每个fragment被恒温扩增的过程

  • The flowcell is a glass slide with lanes.

    flowcell(流通池)是具有lanes(通道)的大玻璃块(我翻译了个毛东西???)

    image-20200211124916826

  • Each lane is a channel coated with a lawn, composed of two types of oligos.

    每条lane都是覆盖有lawn(原意为草坪,这里指的是扎满oligos的样子像草坪)的通道,由两种oligos(寡聚核苷酸)组成

    image-20200211124954217

    image-20200211125109229

  • Hybridization is enabled by the first of the two types of oligos on the surface.

    lane上覆盖的lawn中的两种oligos中的第一种,可以实现hybridization(杂交)

    image-20200211125157049

  • This oligo is complimentary to the adaptor region on one of the fragment strands.

    该oligo与fragment strands(我觉得是说,双链DNA片段)的其中之一的strands上的adaptor区域complimentary(互补的)。

  • A polymerase creates a complement of the hybridized fragment.

    Polymerase(聚合酶)会补全hybirdized fragment的其他位置

    image-20200211125618845

    image-20200211125801005

  • The double stranded molecule is denatured and the original template is washed away.

    双链分子被变性,原始template(模板)被洗脱

    image-20200211130425263

  • The strands are clonally amplified through bridge amplification.

    strands被克隆性扩增(一次),通过bridge amplification(桥式扩增?)

  • In this process the strand folds over and the adaptor region hybridizeds to the second type of oligo on the flowcell.

    在此过程中,strands 折叠弯曲并且 adaptor 区域与 flowcell 上的第二种oligo杂交

    image-20200211130543975

    image-20200211130610702

  • Polymerases generate the complimentary strand forming a double stranded bridge.

    Polymerases 产生complimentary(互补)strand,从而形成了一个双链的 bridge

    image-20200211130700094

  • This bridge is denatured, resulting in 2 single stranded copies of the molecule that are tethered to the flowcell.

    bridge 被变性,得到了 2 条 single stranded cpoies,这些 copies 也被 tether(拴,系)在了 flowcell 上

    image-20200211130732291

  • The process is then repeated over and over, and occurs simultaneously for millions of clusters resulting in clonal amplification of all the fragments.

    然后,该过程一遍又一遍地重复,并且对于数百万个 clusters (簇) 同时发生,从而导致所有片段的克隆扩增。

    image-20200211130756396

    image-20200211130817527

  • After bridge amplification the reverse strands are cleaved and washed off, leaving only the forward strands.

    bridge amplification 之后,将reverse strands(反义链)切掉并洗脱,仅留下forward strands(正义链)。

    image-20200211130930275

    image-20200211131026229

  • The three prime ends are blocked to prevent unwanted priming.

    3' 端被 blocked (锁住,阻滞?)来防止priming(啥意思?)

桥式PCR

  • 孟浩巍的知乎
  • 将上述的DNA样品调整到合适的浓度加入到flowcell中,再加入特异的化学试剂,就可以使得序列的一端与flowcell上面已经存在的短序列通过化学键十分强健地相连,如下图。图中不同的颜色表示的是两种不同的adpater,分别对应序列之前加入的两种adpater
  • 引用:https://i.ytimg.com/vi/t0akxx8Dwsk/maxresdefault.jpg

img

  • 连接以后就正式开始桥式PCR。首先进行第一轮扩增,将序列补成双链。加入NaOH强碱性溶液破坏DNA的双链,并洗脱。由于最开始的序列是使用化学键连接的,所以不会被洗

  • 加入缓冲溶液,这时候序列自由端的部分就会和旁边的adpater进行匹配

  • 进行一轮PCR,在PCR的过程中,序列是弯成桥状,所以叫桥式PCR,一轮桥式PCR可以使得序列扩增1倍
  • 如此循环下去,就会得到一个具有完全相同序列的簇,一般叫cluster

整体流程如下图所示:

引用自:http://tucf-genomics.tufts.edu/home/faq

img

  • 形成这种1个cluster,1个cluster的形态,在整个flowcell中看上去,示意图如下。其中的每1个cluster就算是1群完全相同的序列。

引用自:http://www.intechopen.com/source/html/49419/media/image2.png

img

Sequencing

  • Sequencing begins with the extension of the first sequencing primer to produce the first read.

    测序是从第一个测序引物的延伸开始的,以产生第一个read

    image-20200211131214913

  • With each cycle, fluorescently tagged nucleotides compete for addition to the growing chain.

    在每个循环中,荧光标记的核苷酸竞争添加到延长的链中

    image-20200211131252672

  • Only one is incorporated based on the sequence of the template.

    根据template 的 sequence,仅有一种能被 incorporated(收录,记录,标记)

  • After the addition of each nucleotide the clusters are excited by a light source and a characteristic fluorescent signal is emitted. 加入每个核苷酸后,clusters被光源激发,并发出特征性的荧光信号。

    image-20200211131326041

    image-20200211131407222

    image-20200211131425089

    image-20200211131439075

    image-20200211131500536

  • This proprietary process is called sequencing by synthesis.

    这个proprietary(专有的)过程被称为 SBS(边合成边测序)

  • The number of cycles determines the length of the read.

    循环次数决定了 read 的长度

  • The emission wave length, along with the signal intensity, determines the base call.

    发射的波长以及信号强度,决定了 base call (碱基的决定?)

  • For a given cluster, all identical strands are read simultaneously.

    对于给定的 cluster,所有相同的 strands 都在同时被读取

  • Hundreds of millions of clusters are sequenced in a massively parallel process.

    在这样一个大规模并行的过程中,上亿个 clusters 被 sequenced(测序)

  • This image represents a small fraction of the flowcell.

    这个image 仅代表了这个 flowcell 的一小部分

    image-20200211131536552

  • After the completion of the first read, the read product is washed away.

    在第一个 read 完成后,read 产物将被洗脱

    image-20200211131649891

  • In this step, the index 1 read primer is introduced and hybridized to the template.

    在这个步骤中,index 1 read 的引物被引入,与 template 杂交

    image-20200211131729759

  • The read is generated, similar to the first read.

    然后产生 read,与第一次 read 相似

    image-20200211131748958

  • After completion of the index read, the read product is washed off, and the three prime ends of the template are deprotected.

    完成这次 index read 后,read 产物被洗脱,template 的 3' 端被去除了保护

    image-20200211131818637

  • The template now folds over and binds the second oligo on the flowcell.

  • template 现在折叠起来,并且结合 flowcell 上的第二个 oligo

    image-20200211131904957

  • Index 2 is read in the same manner as index 1.

    index2 以与 index 1 相同的方式被读取

    image-20200211132005293

  • Polymerases extend the second flowcell oligo forming a double stranded bridge.

    polymerases 扩增第二种 flowcell oligo,形成了双链的 bridge

    image-20200211132029326

    image-20200211132048624

  • This double stranded is then linearized and the three prime ends are blocked.

    然后此双链被线性化,并且,封闭 3' 端被 blocked。

    image-20200211133453529

  • The original forward strands cleaved off and washed away leaving only the reverse strand.

    最初的 forward strands 断裂并被洗脱,仅留下 reverse strands

    image-20200211133518848

    image-20200211133557131

  • Read 2 begins with the introduction of the read 2 sequencing primer.

    read 2 (第二次读数?)与 read 2 的序列引物介入同时开始

    image-20200211133615465

  • As with read 1, the sequencing steps are repeated until the desired read length is achieved.

    与 read 1 一样,重复测序步骤,直到想要读取的长度被达到

    image-20200211133647637

  • The read 2 product is then washed away.

    read 2 也被洗脱

    image-20200211133715396

  • This entire process generate millions of reads, representing all the fragments.

    整个过程产生了上百万的 reads,代表了所有的 fragments

    image-20200211133735277

  • Sequences from pooled libraries are seperated based on the unique introduced during the properation.

    根据准备过程中独立的引入过程,序列从pooled libraries(理解为测序样本的序列库)中被分离出来

    image-20200211134020544

  • Forward and reverse reads are paired creating contiguous sequences.

    毗邻的正义链反义链被配对起来

    image-20200211134047642

    image-20200211134111187

测序

  • 孟浩巍的知乎
  • 测序的过程反而简单了不少。就是来一个primer,然后加入特殊处理过的A,T,C,G四种碱基。特殊的地方有两点,一个是脱氧核糖3号位加入了叠氮基团而不是常规的羟基,保证每次只能够在序列上添加1个碱基;另一方面是,碱基部分加入了荧光基团,可以激发出不同的颜色。
  • 特殊处理的脱氧核糖核酸,引用自:http://www.oezratty.net/,图中的核糖的羟基应该换成-N2的叠氮基团。

img

  • 在测序过程中,每1轮测序,保证只有1个碱基加入的当前测序链。这时候测序仪会发出激发光,并扫描荧光。因为一个cluster中所有的序列是一样的,所以理论上,这时候cluster中发出的荧光应该颜色一致。一个测序扫描图片如下:

img

  • 随后加入试剂,将脱氧核糖3号位的—N2改变成—OH,然后切掉部分荧光基团,使其在下一轮反应中,不再发出荧光。如此往复,就可以测出序列的内容。示意图如下,引用自http://www.gendx.com/

img

  • 那为什么Illumina测序会有长度限制呢?主要是下面2点
    1. 测序时,经过长时间的PCR,会有不同步的情况。通俗一点讲,比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,就变成了,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现,50个红,50个绿色,这时候我们判断不出来到底是什么碱基被合成。
      1. 测序过程中,使用的碱基是特殊处理的,有一个非常大的荧光基团修饰。在使用DNA ploymerase的时候,酶的状态也会受到底物的影响,越来越差。

Data analysis

  • This contiguous sequences are aligned by the refferenced genome. 毗邻的序列根据参考基因组来比对,然后,BSSH 的广告 image-20200211134128987
  • Then, genomic data can:
    • transfer
    • store
    • analyze
    • share
  • in BaseSpace Sequence Hub. image-20200211134202137

4. Bioinformatics analysis by different needs

5. Learn more at Illumina


title: bioinfo-BBQ-第2题 测序技术初探 index_img: /img/bioinformatics.png banner_img: /img/bioinformatics.png tags:

  • BBQ100
  • Bioinformatics categories:
  • Bioinformatics
  • BBQ100 date: 2020-02-15 21:13:28

参考:

孟浩巍的知乎

有改动


第2题 测序技术初探

现在我们实验室或者公司常用第1代测序与第2代测序,那么:

1. 第1代测序 sanger 测序法的原理是什么?通量比较低的核心原因是什么?

sanger法测序及双脱氧链终止法,它采取DNA复制原理,通过在DNA复制过程中添加双脱氧三磷酸核苷酸(ddNTP)终止DNA链的延伸,在DNA链不同位置的延伸终止判断该位置的碱基类型。但是凝胶电泳的时间较长,导致sanger法测序通量低。

2. 作为2006年正式发布的illumina测序技术,或者称为第2代测序技术的代表性技术,其最大的特点是什么?

高通量,成本低,但测序长度较短。

3. Illumina测序技术的核心是什么?

核心内容有两个,一个是桥式PCR,主要用于扩大信号;另一个是4色荧光可逆终止反应,使illumina测序可以实现边合成边测序的技术。

4. Illumina测序技术为什么不能像第1代测序技术一样测500bp以上?【这是个重点问题】

主要的原因有两个,一方面测序时,经过长时间的PCR,会有不同步的情况。比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现50个红,50个绿色,这时信号不足以判断碱基类型;第二就是测序过程中合成酶的活性越来越不稳定,后面碱基添加出现问题。

深入了解:

如何快速入门生物信息学

Illumina-Sequencing by Synthesis


title: bioinfo-BBQ-第3题 Illumina测序技术细节探究 index_img: /img/bioinformatics.png banner_img: /img/bioinformatics.png tags:

  • BBQ100
  • Bioinformatics categories:
  • Bioinformatics
  • BBQ100 date: 2020-02-15 21:13:28

参考:

孟浩巍的知乎

有改动


第3题 Illumina测序技术细节探究

目前我们最常使用的就是Illumina公司的测序技术,Illumina公司的测序技术最明显的几个特点是:价格低,通量高,测序读长短。那么我们今天的问题,就是围绕Illumina测序技术的细节来提问的。

1. 什么是Illumina测序adapter?同一批上机的adapter序列一样吗?它的作用是什么?

adapter的中文意思为适配器或者接口,在illumina测序过程中关键一步是将文库片段固定在flowcell上,然后通过桥式PCR将片段扩增,在被打断成300~500bp的长度的片段末端被补平后adaptor将被添加到片段两端,一方面用于将片段固定在flowcell上,同时adaptor中还包含桥式PCR所需要的引物

2. 一个完整的Illumina测序过程是那几步?

完整的测序过程仅包含两步,第一是桥式PCR扩增,第二是以4色荧光可逆终止反应为核心技术的测序;

3. 什么是桥式PCR技术?为什么要进行桥式PCR?

加上adaptor之后的DNA样品与flowcell上固定的oligo(寡链核苷酸)匹配后就被固定在flowcell上,通过桥式PCR进行扩增成cluster,便于后面的荧光测序,主要步骤为:

  • 进行第一轮扩增,将序列补成双链。加入NaOH强碱性溶液破坏DNA的双链,并洗脱。由于最开始的序列是使用化学键连接的,所以不会被洗。
  • 加入缓冲溶液,这时候序列自由端的部分就会和旁边的oligo进行匹配
  • 进行一轮PCR,在PCR的过程中,序列是弯成桥状,所以叫桥式PCR,一轮桥式PCR可以使得序列扩增1倍
  • 如此循环下去,就会得到一个具有完全相同序列的cluster

4. 我们都说,测序结果会包含index,那么index是什么?有什么作用?

一条lane能测得的数据量在30G左右,而一个样品的测序量一般不会这么大,所以在建库的时候对每一种样品的接头加上不同的标签序列,这个标签就叫做Index,有了index就可以同时在一个lane中测多种数据了,后期可以根据index将数据分开;

5. 我们所说的flowcell,lane,tile都是什么意思?

  • flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane
  • lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等
  • tile 每一次测序荧光扫描的最小单位

6. Illumina测序结果质量表示方法采用的是Phred33还是Phred64?

最新的测序质量结果一般都为Phred33,但是早期的测序数据可能出现Phred64。


深入了解:

如何快速入门生物信息学

Illumina-Sequencing by Synthesis