写在前面
前天,我写了一个 TBtools 插件,意在让所有人都能自主分析转录组测序数据,进而获得 基因表达量矩阵(TPM) 和 基因读段计数矩阵(Count)。已经提过了,TPM 就直接可用,而 Count 矩阵本身可以在网络上找到各类差异表达基因分析平台,上传矩阵就可以做各种差异表达分析。
不过很多人可能还是没意识到,前述的 Kallisto 插件或者流程出来的结果,其实是 转录本水平的表达矩阵 而不是 基因表达矩阵。基于 Kallisto 的算法实现,我们不应该只分析基因的某个或者某几个代表转录本,因为这样可能会影响 Kmer Counts 的正确计算。
而事实上,不少人关注的还是基因水平,而不是转录本水平(取决于实验设计,精度,深度云云)。于是 ,我有写了一个小功能,可以用于汇总 转录本表达矩阵 为 基因表达矩阵 。
Trans Value Sum
想不到一个合适的名字,按照我的习惯,那么所以写一个。
从界面来看,输入文件有二:
- 转录本表达矩阵
- 转录本归属基因的信息表,格式为“转录本ID 基因ID”,注意,以制表符分隔。
输入输出均支持 文件 或 文本直接输入。为方便演示,下述直接使用文本输入输出模式。示例如下
可以看到,Tran1 和 Tran2 归属于 Gene1 ,于是值被加和,作为Gene1 的表达量。
一切看起来如此顺畅。那么问题可能就出现了。
转录本表达矩阵,我们当然可以轻松获得,但是转录本ID 和 基因ID 的对应关系,怎么搞?
GXF Position Extract
很久很久以前,我已经写过这个功能了。这里使用拟南芥的 GFF3 文件为示例。
只需要输入一个GFF3或者GTF文件,设置两个输出文件路径
点击 Start 可得
于是,在Excel里面或者使用 TBtools 表格工具就可以快速获得对应表格。
写在最后
轻轻松松,半小时写工具,半小时写推文...
今天也算周末,祝大伙科研顺利。
另,最近的推文阅读量似乎明显下载,一直保持在1000+。。。
我还是直白一点吧,该在看的就点再看,该转发的就转发。写着写着没多少人看了,我就不写了。