转录组分析——一、工作目录搭建及SRA文件下载

一、准备工作-目录管理

mkdir rna
cd rna
mkdir biosoft database pipline project project_backup

一句命令同时创建多个同级别文件夹,规律存放,方便溯源
几个文件的作用分别为“软件安装,数据库存放,流程搭建目录,项目分析,数据备份”

二、数据下载

流程:tsv文件——获取sra.url——ascp命令下载sra文件

1、从ENA数据库获取tsv文件

从文献到获取tsv文件的思路:
文献中的GSE编号(materials and methods)——GEO数据库获得该数据集的BioProject编号(PRJNA229998)——到ENA数据库下载tsv文件(其内有aspera下载链接)
(tips:WiFi打开ENA数据库速度慢,建议手机热点)
勾选所需信息列


image.png

tsv文件可被Excel打开,其中sra_aspera为下载URL,sra_md5为sra文件的md5值
而后用Xftp将tsv文件导入到Linux服务器,直接放到项目工作目录,或者软链接至工作目录,如下:

# 或者不直接放到工作目录,放到其他目录,软链接到工作目录
ln -s file.tsv ./

2、获取sra.url(sra文件的下载链接)

# 查找sra_aspera,即sra.url在哪一列
head -n 1 file.tsv | tr '\t' '\n' | less -NS
# 发现URL在第14列,切出第14列
less -S file.tsv | cut -f 14
# 剔除第一行信息,并将结果重定向至sra.url文件——14列虽然已经切出,但14列的表头占据了第一行
less -S file.tsv | cut -f 25 | awk 'NR>1{print}'>sra.url
# 附——简化:三四行代码可以用awk简化,直接取出第14列,且排除第1行,重定向至sra.url文件
cat file.tsv | awk 'NR>1{print $14}'>sra.url
# 最后查看一下提取出来的URL,-A可以查看所有字符
cat -A file.tsv
# 发现每行的行尾有一个$符号

3、sra数据下载

# 下载单个文件(注:'\'字符为转义字符,表示命令还没有输完)
# 最后一行下载链接之前有“era-fasp@”,注意!!!
ascp -k 1 -QT -l 300m -P33001 \ 
-i   '秘钥文件的绝对路径'  \
era-fasp@'sra的下载链接' ./

# 任务投递
# Ctrl+z           下载时使任务暂停并转入后台
bg     # 后台再次运行
jobs # 查看当前运行的任务
top  
ps -fx
fg  #转前台 不加参数时,把刚刚转后台的任务转前台;如果已经退出服务器,需要把后台转前台,需要在fg后面加任务号,jobs -l 命令可以显示任务号(中括号里面的数字)

# 批量下载
# 得到sra.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符
# 行尾有$符号,批量下载之前要去掉!!!!
cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $13}' >sra.url
cat filereport_read_run_PRJNA229998_tsv.txt |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n'  >fastq.url

# 批量下载命令   用shell脚本+while循环批量下载!!!!!!!!!!!!!!!!!!!!
cat  sra.url |while read id
do
    ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ./ &
done

释义:
ascp命令(aspera软件中的命令)
-k 表示断点续传,通常设置为1
-Q 启用QQ传输策略,使用-l和-m可以分别设定最高和最小传输速度
-T 取消加密传输,若不添加此参数,可能无法下载
-P 表示默认端口
-i 输入秘钥,此参数后接秘钥文件
公共账户名(era-fasp@),后面是下载URL,最后是下载文件存放的文件夹

tips:秘钥文件的路径可以用find命令查找

find '待搜索文件夹' -name '*.openssh'
# ‘待搜索文件夹’使用绝对路径填写,返回的路径也会是绝对路径,就可以直接拷贝到秘钥文件位置
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容