Herman's Blog 
  • 首页
  • 归档
  • 分类
  • 标签
  • 留言
  • 友链
  • 知乎
  • 微博
  • 关于
  •     
java-java学习资源整理汇总

java-java学习资源整理汇总

知乎-如何全面系统地自学Java语言?-Java小王子的回答 尚硅谷_Java零基础教程-java入门必备-适合初学者的全套完整版教程(宋红康主讲)【学习中】
 2020-10-26   Java  学习资源整理  汇总    java 
bioinfo-测序量与测序深度的理解

bioinfo-测序量与测序深度的理解

参考 http://blog.sina.com.cn/s/blog_13de3725c0102v7s4.html https://zhuanlan.zhihu.com/p/74991232 测序量or数据量 nt=nucleotide, 即核苷酸数,通常用于描述单链,如RNA, primer等 bp=base pair, 即碱基对,用于描述双链的,如DNA, 双链RNA等 人类基因组有3Gnt(3×109nt)3 Gnt(3\times10^9 nt)3Gnt(3×109nt) 其中大约1/30(也就是0.1Gnt0.1 Gnt0.1Gnt)被用于蛋白质编码基因。这意味着常规RNA-seq要测序的RNA总长度大约有100Mnt(0.1Gnt)100 Mnt(0.1 Gnt)100Mnt(0.1Gnt) reads:高通量测序平台产生的短序列就称为reads(每次测序的读长,体现在fastq文件),也称为一个读段 reads可以是单独一条,成为Single End reads,简称SE read, 也可以是两条具有物理关系的一对reads,根据reads方向,可以分为Pa
 2020-10-21   Bioinformatics  Tips    Bioinformatics 
bioinfo-bam文件的down-sampling分析-测序下限与recall率研究

bioinfo-bam文件的down-sampling分析-测序下限与recall率研究

思路 已有bam sort by position:需要转化为bam sort by name bam sort by position bam sort by name 转换操作的命令 tips: 保留header 输出位bam文件即可 # 测试 samtools view -h 293T-bat_EMX1-All-PD_rep1_hg38.MAPQ20.bam| head -100 > test.sam samtools sort -@ 12 -m 2G -O bam -o test_out.bam -n test.sam less -S test_out.bam
 2020-10-21   Bioinformatics  Pipelines_RNA-seq    Bioinformatics 
python-argparse

python-argparse

https://zhuanlan.zhihu.com/p/56922793 参考以上链接内容 argparse argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直接在命令行中就可以向程序中传入参数并让程序运行。 程序框架-get_parser() # file-name:print_name.py import argparse def get_parser(): parser = argparse.ArgumentParser(description="Demo of argparse") parser.add_argument('--name', default='Great') return parser if __name__ == '__main__': parser = get_parser() args = parser.parse_args() name = args.name print('Hello {}'.format(name)
 2020-10-21   Python    Python  argparse 
spark_Spark简介

spark_Spark简介

https://ke.qq.com/course/362711?taid=2944097002555607&tuin=10643082 Spark简介 Spark是什么? Spark是一个高性能的、多云国土的开源集群计算框架 Spark是Apache基金会最重要的项目之一,是现在大数据领域最热门的大数据计算平台之一 Spark不仅具备Hadoop MapReduce的优点,且解决了MapReduce的缺陷 Spark生态图 Scala性能最好,Spark就是Scala开发的 可以用Java或Python入手 Spark的特点 支持多种数据源 支持多种运行模式 包含多个完整强大的组件 多语言且支持交互式编程 很好的兼容Hadoop生态 运行速度快 Spark运行架构 名词 Driver:Spark应用的任务控制节点 Executor:Spark应用的任务的执行进程 Cluster Manager:Spark任务的资源管理器 Application:应用,即我们提交到Spark的执行程序 Job:Spark中对RDD进行Ac
 2020-10-20   数据科学  Spark    Spark 
spark_初识大数据

spark_初识大数据

初识大数据 Spark入门
 2020-10-20   数据科学  Spark    Spark 
git_git是如何运作的

git_git是如何运作的

待更新
 2020-10-20   Linux  Git    Git  GitHub 
Rust_Install_rust

Rust_Install_rust

Rust中文官方网站 https://www.rust-lang.org/zh-CN/tools/install curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh # 选第一个 # 完成后 source $HOME/.cargo/env
 2020-10-15   Rust    Rust 
Bioinfo_MHW_Advance_Bioinfo_RNA-Seq_part6

Bioinfo_MHW_Advance_Bioinfo_RNA-Seq_part6

推荐购买原视频教程,肯定比我写的笔记好! 参考来自 高级生信系列课程:转录组数据分析 6 第六讲 多样本数据分析 6.1 TCGA和GTEx数据库 6.2 数据来源 这是一篇非常好的适合新手去repeat的文章! 6.3 聚类分析 欧氏距离分析时,高表达基因权重高,所以受高表达基因影响很大 解决办法是是: 【演示!代码】 、 6.4 常用降维方法 6.4.1 监督学习与非监督学习 6.4.2 主成分分析PCA 这就叫z-score 为了统一量纲 找到的第2个方向就是PC2 PCA的特点: PC1的贡献率一定比PC2大,PC2一定比PC3大,以此类推 n个变量最多可以产生多少个PC? n个,但是选n个是没意义的 PC1、2、3之间两两正交(垂直) PC是原来变量的线性组合! 【演示方法!后面补】 6.4.3 多维度标度法/主坐标分析(MDS, PcoA) 6.4.4 tSNE 【代码】 6.5 加权共表
 2020-10-08   Bioinformatics  高级生信系列课程-转录组数据分析笔记    Bioinformatics 
Bioinfo_MHW_Advance_Bioinfo_RNA-Seq_part5

Bioinfo_MHW_Advance_Bioinfo_RNA-Seq_part5

推荐购买原视频教程,肯定比我写的笔记好! 参考来自 [高级生信系列课程:转录组数据分析](https://ke.qq.com/course/2993553) 5. 第五讲 内参定量及富集分析 5.1 ERCC校正 5.2 Housekeeping gene校正 这个方法不可以和上面这几个Normalization同时用,相当于重复校正了 回到正题 这个输入的表达矩阵 可以是raw count 可以是FPKM之类 但是最后还是raw count 【代码回头看视频】 5.3 GO分析
 2020-10-05   Bioinformatics  高级生信系列课程-转录组数据分析笔记    Bioinformatics 
123456…36

搜索


 总访问量 次   总访客数 人