Introduction
Galaxy是一个公开的基因组学分析平台,包含了一系列流程化分析工具,针对质控、组装、注释以及包括Chip-seq、RNA-seq、变异鉴定等常见的组学流程pipeline。
Galaxy平台地址:https://usegalaxy.org/
Galaxy 101
地址https://galaxyproject.org/tutorials/g101/,给新手一个小项目进行练习来熟悉galaxy的操作,通过101来熟悉Genomic invervals、Workflows以及Annotation, sharing and Publishing的一些操作。
Genomic Intervals
现在101上面的练习题和视频里好像不太一致,按照视频里的项目任务来说,练习项目的目的是为了找到人类22号染色体上哪个coding exon包含的repeats数目最多。
打开https://usegalaxy.org/ ,界面如下:
可以看到Galaxy的界面主要由左边的工具栏和右边历史栏构成(可以注册账户,拥有私人的历史记录任务空间,最好注册一下,之前没注册发现历史记录好像只能保存一个工作)。
tools点击get data,找到UCUS main:
转到UCSC界面如下,注意在position那里选择chr22,输出格式bed,输出到Galaxy
然后点击get output,弹出页面如下,由于我们要研究的是coding exons,所以勾上,然后点send query to galaxy
点击眼睛那个icon可以打开展示
接下来我们继续在22号染色体上找repeats,也是按照同样方式打开UCSC,group改成repeats,
然后就发现有两个工作记录了
点击左边tools栏的operate on genomic intervals里的Join,将两个数据集合并
然后按照如下方式进行内连接
然后就可以看到连接好的数据集,
接下来我们找到Join, Substract and Group里的Group选项,来为我们进行计数
Group by cloumn那里设置Column:4,因为这个是唯一的exon标识符,最主要的是Operation选项里的设置,如下,就可以计数了,
然后就有了个4号任务,点击查看就展示了对每个外显子中的repeat的计数
你还可以用join将这个4号数据集和1号join一下,这样就包含了位置信息,用tools里Text Manipulation下的cut工具可以选择要展示的列,这里就不再做演示,最后下载下来可以用excel啊什么的看下哪个最多。
Workflows
workflow这个功能可以让你保存你的工作流程,比如上述exon和repeats的合并然后计数,我们保存工作流之后,下次我们需要做exon和其他features的合并,就不需要再从头来了,按下图操作:
点击edit可以对每个流程的标签改名
右上角保存后
接下来我们按照类似的方式得到chr22上的cpg岛信息
点击左下角All workflows,然后更改下参数,就可以重新进行类似的计数了!
得到结果如下,就是Coding exon和cpg岛的overlap计数
Annotation, Sharing, and Publishing
首先是Annotation,你可以看到在基本所有记录最右边上有两个图标,一个像铅笔一个像气泡,点击它们可以加Tag annotation和history annotaion,如下:
通过对Tags的标注,我们可以很方便的在搜索历史里面对tag搜索来找到我们要的记录。
接下来是Share和publish,依次点击
这样就可以将历史记录分享给特定的其他用户。
同样也可以用链接方式分享
然后就可以在数据共享里面看到我们的链接上传到公共数据库里了
当然感觉非常献丑就赶紧关了。。。。实际上在数据共享里面,所有的公开的东西都非常有用,还有最近对于covid-19的研究的workflow、原始数据,这个我觉得是非常棒的!
如果你要对你的分享页面添加描述页,你可以点开账号管理下的我的页面,对你的page添加描述,来方便别人的查看和了解,这里不做过多阐述。
Quality Control
在Galaxy上面也集成了一系列包括FastQC等质控工具,可以很方面的使用。
首先我们可以从数据库里得到一个数据集来进行练习
搜索illumina,点击IDEA Datasets
然后选第一个添加到当前历史
接下来点击FastQC,执行即可
然后就可以看到生成了网页版本的统计和raw data数据统计信息,点小眼睛查看,展示的内容和本地FastQC得到的结果是一样的(各个结果的意义,请移步FastQC官网,或者google、简书一下)
对于低质量序列的过滤,galaxy也拥有trimmomatic、cutadapt、直接trim等一系列的工具,都包含在FASTQ这个工具栏下面
Chip-Seq Analysis with MACS
Chip-seq主要实验目的在于研究与抗体蛋白结合的DNA region,这个抗体可以是修饰的Histone的,也可以是转录因子的。
其中一个分析的主要步骤就是Call peaks,就是看主要DNA的富集区域,这里有个很常用的工具叫MACS,在galaxy中也很容易使用它。
首先我们获取数据
然后用bowtie2比对
用MACS2 callpeak
得到的原始结果我们还可以用UCSC展示
后续部分
后面还介绍了一些RNA-seq和本地化Galaxy的东西,由于感觉RNA-seq现在各种跑流程的教程很多很多,也没必要学习这种网页的。。。所以就略过