上传高通量数据到GEO/NCBI数据库

上传地址:https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html

一、登录

注册/登录:


第三方账户登录,似乎都需要科学上网?


选择我熟悉的谷歌账户,即可登录。

进入自己主页,编辑和人信息,这些信息将在GSE dataset 界面展示。

点击Preview预览查看效果:

点击New submition 开始数据提交。

二、准备数据

根据数据类型点击对应的链接,这里我们上传高通量数据:

点进去的页面内容需要你仔细阅读:https://www.ncbi.nlm.nih.gov/geo/info/seq.html

需要准备的文件包括三部分:

1. metadata spreadsheet

即元数据,注释数据,模板从 seq_template 中下载

可根据文件内的两个示例表格进行填写:


需要填写的地方将鼠标放在表头上会有提示。

这里又包括几个需要填写的部分:

a. SERIES

该批数据的大体描述,其中summary部分填的内容较多,基本上是paper的摘要内容。

b. SAMPLES

所有样本的注释信息,包括样本名(sample1, sample2 ...)、ID、组织类型、细胞类型、物种类型、分组信息、临床信息、测序的分子、原始数据文件名、处理后的文件名等等。

c. DATA PROCESSING PIPELINE

提供原始数据的每一处理步骤的软件、版本及参数、使用的参考基因组、处理后的文件的格式和内容。

d. PROCESSED DATA FILES

处理后的文件名、文件类型及md5码

e. RAW FILES

每个原始数据的注释数据,文件名、数据类型、md5码、测序平台、单双端

f. PAIRED-END EXPERIMENTS

填写配对的数据,当一个样本产生两个(双端数据)及更多( SOLiD)的数据时需要填写。

2. 原始数据

所有原始数据放到统一文件夹:raw_data_files

3. 处理后的数据

所有原始数据放到统一文件夹:processed_data_files

4. 补充文件

SERIES 中填写的 supplementary file,比如所有样本的表达谱: Normalized_log2TPM_matrix.txt。

整理好的文件结构大概是这样的:


而上一级文件夹为:geo_submission_RNAseq,即geo_submission+数据类型。

三、数据传输

还是这个页面往下滑:https://www.ncbi.nlm.nih.gov/geo/info/seq.html

点进去之后仔细阅读所有内容,会告知服务器地址、个人文件存储地址、登录名、及密码。

最下面有上传帮助:


以Linux系统为例:

一开始我选用的是sftp进行上传,上传速度可达2~3 M/s, 但这个命令只能在命令行界面手动操作,而且总是与服务器断开,根本用不了!折腾了我一段时间(手动记录断掉的位置,手动重新上传。。。。)

后来选用了lftp进行上传,最大的优点是可以将传输命令写成一行命令,可以实现批量上传。

但是网速却只有200来k/s。如果一次性传输整个文件夹,500G需要传输30天!

大文件主要就是原始fastq文件了,因此可以将每一个fastq文件都生成一个传输命令,然后递交服务器,就不用担心会断网了。

这样实现了100多个fastq文件同时上传了,弥补了网速慢的问题!

一个2G的文件也只需要3个多小时就能上传,并行多少就取决于服务器支持同时运行多少个任务了。

用这种方法使得之前大半月没有上传好的数据一夜之内就上传好了,办法总比困难多哈哈~

单个文件上传的代码:

lftp -c 'open ftp://geoftp:rebUzyi1@ftp-private.ncbi.nlm.nih.gov; cd uploads/jiahaowongg@gmail.com_ERs7cgUA; put /sibcb2/bioinformatics2/wangjiahao/GDM/RNAseq/submit_data/geo_submission_RNAseq/raw_data_files/17A020374_S21_L004_R2.fq.gz .; quit'

信息替换一下就好了,文件路径使用绝对路径

四、提交审核

还是刚才那个页面,点击“Notify GEO”,


填写数据信息,包括服务器文件地址和开放日期,及其他的确认信息。

点击Submit就完成了提交,之后会进入提交信息界面,在这里可以修改你想要收到邮件的邮箱,默认使用的注册使用的邮箱,比如我就是谷歌邮箱,我不常用,因此换成了自己的个人常用邮箱。

很快GEO团队会自动发送提交提醒的邮件:


告知五个工作日之内会处理,但我晚上提交的,一两个小时之后就返回了,刚好赶上他们的上班时间,也可见效率之高。

如果有文件没有上传完整或者缺少其他需要的信息,GEO团队会邮件告知你,如果没有问题则会返回GSE号。

对于未开放的数据集,可以点击“Reviewer access”,即可获取私人访问码,供审稿人和合作者查看。


收到GSE号的那一刻:芜湖~ 成功了~ 我也是有GSE号的人了!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容