Bioinfo_Web_Databases_GEO数据库下载数据_更新版


下载GEO数据

https://github.com/hermanzhaozzzz/pytools/blob/main/notebooks/geo_data_downloader.ipynb

转换数据

https://www.jianshu.com/p/5c97a34cc1ad

懒人不看版

for i in `ls`
fasterq-dump --threads 24 --progress --split-3 --outfile /lustre1/chengqiyi_pkuhpc/zhaohn/3.project/2021_DdCBE_topic/20211013_David_Liu_AllTargetRegion/fastq/${i}.fastq $i

详细

一般用fastq-dump,有一个让人诟病的地方就是他只能单个线程,所以速度特别的慢。

fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' SRRXXXXX| SRRXXXX.sra

2018年的6月份,sra-tools更新了一个新的sra解压工具,fasterq-dump, a faster fastq-dump,它能利用临时文件和多线程加速从SRA文件提取FASTQ。 fasterq-dump的用法和fastq-dump一样,如下所示

fasterq-dump --threads 24 --progress --split-3 SRR5318040.sra

如上代码运行时如果出现报错 err: invalid accession 'SRR5318040.sra ',请改用如下代码

fasterq-dump --threads 24 --progress --split-3 ./SRR5318040

注意,这个 ./ 非常重要,这意味着我们使用的是下载到本地的sra数据

官方文档在这儿:https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump

从用户模式(user mode)来看, 两者的总CPU使用时间都差不多是560秒,从内核模式来看(Kernel Mode)来看,fasterq-dump花了更多时间在调用底层硬件上,例如分配内存地址。fastq-dump基本上稳定在一个线程,而fasterq-dump尽管指定了20个线程,但平均只用了11.5个线程吧。

对于我们而言,我们只要看最后的total部分,也就是实际花了多少时间。fastq-dump花了快10分钟,而fasterq-dump只需要1分钟,快了9倍多。

最后还有一点不足之处:输出的fastq的ID目前暂时没有选项可以调整,需要自己写个脚本解决。