bioinfo-测序量与测序深度的理解
参考
http://blog.sina.com.cn/s/blog_13de3725c0102v7s4.html
https://zhuanlan.zhihu.com/p/74991232
测序量or数据量
nt=nucleotide, 即核苷酸数,通常用于描述单链,如RNA, primer等
bp=base pair, 即碱基对,用于描述双链的,如DNA, 双链RNA等
人类基因组有3Gnt(3×109nt)3 Gnt(3\times10^9 nt)3Gnt(3×109nt)
其中大约1/30(也就是0.1Gnt0.1 Gnt0.1Gnt)被用于蛋白质编码基因。这意味着常规RNA-seq要测序的RNA总长度大约有100Mnt(0.1Gnt)100 Mnt(0.1 Gnt)100Mnt(0.1Gnt)
reads:高通量测序平台产生的短序列就称为reads(每次测序的读长,体现在fastq文件),也称为一个读段
reads可以是单独一条,成为Single End reads,简称SE read,
也可以是两条具有物理关系的一对reads,根据reads方向,可以分为Pa
bioinfo-bam文件的down-sampling分析-测序下限与recall率研究
思路
已有bam sort by position:需要转化为bam sort by name
bam sort by position
bam sort by name
转换操作的命令
tips:
保留header
输出位bam文件即可
# 测试
samtools view -h 293T-bat_EMX1-All-PD_rep1_hg38.MAPQ20.bam| head -100 > test.sam
samtools sort -@ 12 -m 2G -O bam -o test_out.bam -n test.sam
less -S test_out.bam
python-argparse
https://zhuanlan.zhihu.com/p/56922793
参考以上链接内容
argparse
argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直接在命令行中就可以向程序中传入参数并让程序运行。
程序框架-get_parser()
# file-name:print_name.py
import argparse
def get_parser():
parser = argparse.ArgumentParser(description="Demo of argparse")
parser.add_argument('--name', default='Great')
return parser
if __name__ == '__main__':
parser = get_parser()
args = parser.parse_args()
name = args.name
print('Hello {}'.format(name)
spark_Spark简介
https://ke.qq.com/course/362711?taid=2944097002555607&tuin=10643082
Spark简介
Spark是什么?
Spark是一个高性能的、多云国土的开源集群计算框架
Spark是Apache基金会最重要的项目之一,是现在大数据领域最热门的大数据计算平台之一
Spark不仅具备Hadoop MapReduce的优点,且解决了MapReduce的缺陷
Spark生态图
Scala性能最好,Spark就是Scala开发的
可以用Java或Python入手
Spark的特点
支持多种数据源
支持多种运行模式
包含多个完整强大的组件
多语言且支持交互式编程
很好的兼容Hadoop生态
运行速度快
Spark运行架构
名词
Driver:Spark应用的任务控制节点
Executor:Spark应用的任务的执行进程
Cluster Manager:Spark任务的资源管理器
Application:应用,即我们提交到Spark的执行程序
Job:Spark中对RDD进行Ac
Bioinfo_MHW_Advance_Bioinfo_RNA-Seq_part6
推荐购买原视频教程,肯定比我写的笔记好!
参考来自
高级生信系列课程:转录组数据分析
6 第六讲 多样本数据分析
6.1 TCGA和GTEx数据库
6.2 数据来源
这是一篇非常好的适合新手去repeat的文章!
6.3 聚类分析
欧氏距离分析时,高表达基因权重高,所以受高表达基因影响很大
解决办法是是:
【演示!代码】
、
6.4 常用降维方法
6.4.1 监督学习与非监督学习
6.4.2 主成分分析PCA
这就叫z-score
为了统一量纲
找到的第2个方向就是PC2
PCA的特点:
PC1的贡献率一定比PC2大,PC2一定比PC3大,以此类推
n个变量最多可以产生多少个PC?
n个,但是选n个是没意义的
PC1、2、3之间两两正交(垂直)
PC是原来变量的线性组合!
【演示方法!后面补】
6.4.3 多维度标度法/主坐标分析(MDS, PcoA)
6.4.4 tSNE
【代码】
6.5 加权共表