Genomic Data Science- JHU Course 2 Genomic Data Science with Galaxy 笔记

Introduction

Galaxy是一个公开的基因组学分析平台,包含了一系列流程化分析工具,针对质控、组装、注释以及包括Chip-seq、RNA-seq、变异鉴定等常见的组学流程pipeline。

Galaxy平台地址:https://usegalaxy.org/

Galaxy 101

地址https://galaxyproject.org/tutorials/g101/,给新手一个小项目进行练习来熟悉galaxy的操作,通过101来熟悉Genomic invervals、Workflows以及Annotation, sharing and Publishing的一些操作。

Genomic Intervals

现在101上面的练习题和视频里好像不太一致,按照视频里的项目任务来说,练习项目的目的是为了找到人类22号染色体上哪个coding exon包含的repeats数目最多。

打开https://usegalaxy.org/ ,界面如下:

image.png

可以看到Galaxy的界面主要由左边的工具栏和右边历史栏构成(可以注册账户,拥有私人的历史记录任务空间,最好注册一下,之前没注册发现历史记录好像只能保存一个工作)。

tools点击get data,找到UCUS main:


image.png

转到UCSC界面如下,注意在position那里选择chr22,输出格式bed,输出到Galaxy

image.png

然后点击get output,弹出页面如下,由于我们要研究的是coding exons,所以勾上,然后点send query to galaxy


image.png

然后就会转到galaxy页面,可以看到历史栏已经有了工作记录
image.png

点击眼睛那个icon可以打开展示

image.png

接下来我们继续在22号染色体上找repeats,也是按照同样方式打开UCSC,group改成repeats,

image.png

image.png

然后就发现有两个工作记录了

点击左边tools栏的operate on genomic intervals里的Join,将两个数据集合并


image.png

然后按照如下方式进行内连接


image.png

然后就可以看到连接好的数据集,


image.png

接下来我们找到Join, Substract and Group里的Group选项,来为我们进行计数

image.png

Group by cloumn那里设置Column:4,因为这个是唯一的exon标识符,最主要的是Operation选项里的设置,如下,就可以计数了,

image.png

然后就有了个4号任务,点击查看就展示了对每个外显子中的repeat的计数

image.png

你还可以用join将这个4号数据集和1号join一下,这样就包含了位置信息,用tools里Text Manipulation下的cut工具可以选择要展示的列,这里就不再做演示,最后下载下来可以用excel啊什么的看下哪个最多。

Workflows

workflow这个功能可以让你保存你的工作流程,比如上述exon和repeats的合并然后计数,我们保存工作流之后,下次我们需要做exon和其他features的合并,就不需要再从头来了,按下图操作:


image.png
image.png
image.png

点击edit可以对每个流程的标签改名


image.png

右上角保存后

image.png

回到主页面
image.png

接下来我们按照类似的方式得到chr22上的cpg岛信息

image.png

点击左下角All workflows,然后更改下参数,就可以重新进行类似的计数了!

image.png

得到结果如下,就是Coding exon和cpg岛的overlap计数

image.png

Annotation, Sharing, and Publishing

首先是Annotation,你可以看到在基本所有记录最右边上有两个图标,一个像铅笔一个像气泡,点击它们可以加Tag annotation和history annotaion,如下:

image.png

通过对Tags的标注,我们可以很方便的在搜索历史里面对tag搜索来找到我们要的记录。

接下来是Share和publish,依次点击

image.png
image.png
image.png

这样就可以将历史记录分享给特定的其他用户。

同样也可以用链接方式分享

image.png

然后就可以在数据共享里面看到我们的链接上传到公共数据库里了

image.png

当然感觉非常献丑就赶紧关了。。。。实际上在数据共享里面,所有的公开的东西都非常有用,还有最近对于covid-19的研究的workflow、原始数据,这个我觉得是非常棒的!

image.png

如果你要对你的分享页面添加描述页,你可以点开账号管理下的我的页面,对你的page添加描述,来方便别人的查看和了解,这里不做过多阐述。

Quality Control

在Galaxy上面也集成了一系列包括FastQC等质控工具,可以很方面的使用。

首先我们可以从数据库里得到一个数据集来进行练习

image.png

搜索illumina,点击IDEA Datasets

image.png

然后选第一个添加到当前历史

image.png

接下来点击FastQC,执行即可

image.png

然后就可以看到生成了网页版本的统计和raw data数据统计信息,点小眼睛查看,展示的内容和本地FastQC得到的结果是一样的(各个结果的意义,请移步FastQC官网,或者google、简书一下)

image.png

对于低质量序列的过滤,galaxy也拥有trimmomatic、cutadapt、直接trim等一系列的工具,都包含在FASTQ这个工具栏下面

image.png

Chip-Seq Analysis with MACS

Chip-seq主要实验目的在于研究与抗体蛋白结合的DNA region,这个抗体可以是修饰的Histone的,也可以是转录因子的。

其中一个分析的主要步骤就是Call peaks,就是看主要DNA的富集区域,这里有个很常用的工具叫MACS,在galaxy中也很容易使用它。

首先我们获取数据

image.png

然后用bowtie2比对

image.png

用MACS2 callpeak


image.png

得到的原始结果我们还可以用UCSC展示

image.png

后续部分

后面还介绍了一些RNA-seq和本地化Galaxy的东西,由于感觉RNA-seq现在各种跑流程的教程很多很多,也没必要学习这种网页的。。。所以就略过

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容