测序量与测序深度的理解


参考

http://blog.sina.com.cn/s/blog_13de3725c0102v7s4.html

https://zhuanlan.zhihu.com/p/74991232

测序量or数据量

  • nt=nucleotide, 即核苷酸数,通常用于描述单链,如RNA, primer等
  • bp=base pair, 即碱基对,用于描述双链的,如DNA, 双链RNA等
  • 人类基因组有$3 Gnt(3\times10^9 nt)$
    • 其中大约1/30(也就是$0.1 Gnt$)被用于蛋白质编码基因。这意味着常规RNA-seq要测序的RNA总长度大约有$100 Mnt(0.1 Gnt)$
  • reads:高通量测序平台产生的短序列就称为reads(每次测序的读长,体现在fastq文件),也称为一个读段
    • reads可以是单独一条,成为Single End reads,简称SE read,
    • 也可以是两条具有物理关系的一对reads,根据reads方向,可以分为Pair-end reads和mate-pair reads,简称为PE reads
  • reads读长:Illumina 平台的双端测序读长大概为300bp(或者说300nt)
  • 对于5G测序量的理解:5G指有$5\times10*9$个碱基,假如测序为单端$100nt$或双端$50nt$,则可以得到的reads数为50M(Million)($0.05 G$)
  • 那么对于
    • 双端测序(read 1测150 bp read 2 测150 bp)
    • 但端测序(仅有read 1 测150 bp)
    • 同样测序$15 Gnt$的测序量
      • 双端测序相当于测了$50 M$个reads(read1 + read2)
      • 单端测序相当于测了$100 M$个reads(read1)

所以!

  • 【测序量】:就是测了多少个碱基
  • 【数据量】:测了多少个reads

测序深度

  • 【测序深度】:测序得到的总碱基数与待测基因组大小的比值,可以理解为基因组中每个被测到的碱基重复被测序的的平均次数(以碱基数量为单位)
    • $测序深度计算 = (reads长度 \times 比对的reads数目) / 参考序列长度$
    • $测序深度计算 = (测序得到的总碱基数也就是测了多少G) / 物种参考基因组长度$
      • 比如,对人的细胞全基因组测序测了$300 G$,我们已知人体基因组的大小约为30亿个碱基对,即$3000Mbp$或者说$3Gbp$,那么本次测序的理论$【测序深度】=【300Gbp】/【3Gbp】= 100\times$

单双端的测序深度与测序量的换算

  • 【单端测序】 $测序量=reads长度 * reads个数$
    • reads长度很容易得知
    • reads数目可以用$ wc -l file.fastq统计出来的结果除以4,因为1个reads在fastq文件里通常用4行的信息来描述
  • 【双端测序】 $ 测序量=单端reads长度 单端reads个数 2$

覆盖度

高通量基因组测序中,什么是测序深度和覆盖度?

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为$2M$,测序深度为$10\times$,那么获得的总数据量为$2M\times10\times=20M$。

【覆盖度】是指测序获得的序列占整个基因组的【比例】。

  • 由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域
  • 这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,【覆盖度】是$98\%$,那么还有$2\%$的序列区域是没有通过测序获得的。

测序深度的要求

image-20201021221741207