Bioconductor 3.10正式发布

说明:因为平台限制和平台广告等原因,今后的文章将不在简书更新,请移步并订阅个人博客
说明:因为平台限制和平台广告等原因,今后的文章将不在简书更新,请移步并订阅个人博客
说明:因为平台限制和平台广告等原因,今后的文章将不在简书更新,请移步并订阅个人博客


10月30日,Bioconductor 3.10 正式发布,该版本的bioc共包括了 1822 个软件包,384 个实验数据包,952 个注释包和 27 个工作流程,基于 R 3.6.1。

其中,新的软件包有93个,新的数据包15个,新的注释包2个,大量的旧包都进行了一波更新。

接下来推荐几个值得关注的最新软件包,以及一些经典包的重要更新。

新加入的 bioc 包

在3.10版本中新加入的 bioc 包,我个人比较感兴趣的有如下几个。

ALPS

ALPS: AnaLysis routines for ePigenomicS data 一个最新的表观数据(ChIP-seq, ATAC-seq 等)可视化工具包,帮助你绘制高质量的发表级数据。下图是一个可以展示的内容概览。

输入数据是一个包含有 bigwig 源文件位置信息的 data table。再结合其它一些相关 R 包的处理结果可以展示各种类型的信息,例如计算基因组的富集区域供后续进行 PCA 和聚类的分析;绘制不同样品之间的富集差异;绘制基因浏览器或者IGV类似的 track 等等。同时也可以对基因组区域进行注释和绘制motif。

作者也强调,这个包中的大多数图都可以利用 ggplot2 的一套系统进行二次定制。

image

MethCP & Methrix

在分析甲基化数据的时候比较关注的一个信息叫做 differentially methylated region (DMR) 差异甲基化区域,类似于转录组分析中的差异表达基因。 大多数已有的一些工具(其实也没有很多)针对的都是两组数据,而 MethCP 除了支持常规的两组比较外,也可以处理多种条件的同时比较,例如时序数据。

需要说明的是,MethCP 本身使用 bsseq 这个包加载原始数据。

目前甲基化的数据上游分析产生的基本都会是一个超大的 bedgraph 文件,一般性能的电脑基本是处理不了的。Methrix 这个工具包主要的设计目的就是处理这种大型的甲基化 bedgraph 文件。

在读入文件的同时,还可以利用参考基因组填补确实的CpG信息,并且创建甲基化矩阵。后续可以在矩阵的基础上进行一系列过滤和提取操作,并进行可视化展示。当然也可以把这个矩阵结果转换为bsseq数据包支持的格式,然后再使用 MethCP 这个包进行分析。

Knowseq

一个据介绍是可以直接完成从原始数据下载到完成所有常规分析的工具包。下图是主要分析流程。

在原始数据下载比对这个步骤中,其可以调用预编译好的 Bowtie2, Kallisto 和 salmon 的工具。首先可以利用downloadPublicSeries(c("GSE74251")) 下载GEO中的数据信息,然后使用read.csv("ReferenceFiles/GSE74251.csv") 读取文件中的数据信息,接下来就可以使用 rawAlignment 这个命令来进行序列比对了。

在进行 Biomarkers identification 的步骤时,可以进行质控和去除 batch effect 等操作,差异分析之后可以结合机器学习方法进行分类和基因筛选。

最后针对差异进行可已经常用的各种富集分析,包括 GO pathway 和 相关疾病。

(从个人经验来说,这种大而全的包质量一般不会特别好,但是可能还是会有一些人喜欢。)

image

APAlyzer

在转录翻译的过程中,mRNA 会在尾巴处添加一些 ployA,这个A可是有讲究的,长短位置的不同都会都 mRNA 的稳定性带来各种各样的影响,于是有一个研究方向就是 APA (alternative polyadenylation)。

这方面研究相对权威的新泽西州罗格斯癌症研究所 Bin Tian 实验室针对人类中以后的可信 PolyA 位点信息,开发了一个使用转录组数据分析 APA 的工具包 APAlyzer。当前的版本支持检测UTR区域和内含子区域的APA,并利用编码区进行表达分析。

image

有重要更新的R包

大量的已有工具包在 3.10 版本中进行了更新,这里挑选几个大家比较熟悉的进行简要介绍。

ChIPseeker

ChIPseeker 是 Y 叔开发的一个对 genomic region 进行各种注释可视化展示的工具包。其中有一个图比较典型,如下所示,就是把 upsetplot 嵌入 vennpie。这个图在实现效果前前后后经历过几次改变,但是在这个包中的实现方法一直没有升级,近期这个图在使用过程中偶尔会出现一些问题,例如只显示饼图不显示upsetplot等,然后Y叔就把这个实现方法给升级了。

用Y叔的原话说就是

于是我就把 ChIPseeker::upsetplo t重新给实现了,利用了 ggimage + ggplotify,代码长度变成原来的1/3,而且不会出现上面的这些问题。

library(ChIPseeker)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
library(clusterProfiler)
files <- getSampleFiles()
print(files)

peakAnno <- annotatePeak(files[[4]], tssRegion=c(-3000, 3000),
                         TxDb=txdb)
upsetplot(peakAnno, vennpie=T)
image

DESeq2

之前写过一篇文章介绍 船新版本 DESeq2 处理大量样本速度显著提升,现在这个版本的 DESeq2 也随着bioc的升级而正式升级。

在之前的文章中,已经比较详细的写了为什么在处理大量样本时速度会有急速提升。在升级说明中则写的比较含蓄

speeds up DESeq2 for large sample sizes (n > 100) by at least an order of magnitude. In fact the speed is now linear with number of samples whereas previously DESeq2 would scale quadratically.

ensemblVEP

调用 Ensembl Variant Effect Predictor 的 perl API 进行突变注释分析的 R 包 ensemblVEP 现在支持了 Ensembl release 97/98。似乎没啥可说,但是还是挺重要的。因为每一次 Ensembl 的更新,在一些物种上都会有比较大的升级。

IsoformSwitchAnalyzeR

IsoformSwitchAnalyzeR 是一个可以鉴定,注释和可视化可变剪切和转录本转换的工具包。在3.10中进行了大量的升级,多数函数都有改变。

image

maftools

maftools 是分析和展示 Mutation Annotation Format (MAF) 文件的工具包,在不少文章中都可以这个包绘制的图。在这次更新中,maftools 增加了 survGroup, mafSurvGroup 两个函数,用来预测和生存相关的基因以及基因集。另外,Signature analysis 分析步骤也有很多调整。

image

其它具体的更新信息,可以参考官方说明

如何升级

查看当前版本:

library(BiocManager)

应该会展示如下信息

Bioconductor version 3.9 (BiocManager 1.30.4), ?BiocManager::install
for help

绝大多数情况下升级只需要执行如下命令:

BiocManager::install(version = "3.10")

通过指定版本号之后,所有可以更新的 R 包都会更新到 3.10 版本。如果你安装的 R 包比较多,提示需要更新一两百个 R 包都是很正常的。祝好~


扫码即刻交流
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容