sentieon的特点
sentieon是一款商业版call变异的软件。call变异的软件很多,为什么sentieon能商业化(据说价格还很贵),主要有两个特点准、快。
-
准
Broad研究所的GATK目前仍然是call变异软件中被业界认可度最高的,而sentieon是用的和GATK一样的数学模型,不一样的是对算法进行了改进,用sentieon的结果和GATK一样。所以,即使目前已经有很多软件的速度可以超过sentieon,但是对不是基于GATK的软件,会有人对你call变异的精确度质疑,不愿意使用。这也是sentieon对外宣传首先提的口号精准。 -
快
sentieon广知的另一个优点就是快。快到什么程度?他们的测试结果是比GATK快20-50倍。
我们自己的测试一组结果,30X human WGS, GATK(3.8)需要93h,sentieon只需要4h,提高了23倍。另外相对于GATK4.0它的速度依然很快。
所以sentieon对call变异速度的大幅度提升在大型队列的研究中优势就会更加突出。
缺点
sentieon对读写要求较高。我曾经用我们所里的一个集群同时跑了10几个人的WES数据,把集群跑死了两次。如果集群在设计是给每个计算节点配备一个他自己的硬盘作为临时存储空间,这样读写速度会快很多。还有一个问题可能就是收费了,具体费用我不是很清楚。
申请license
sentieon的使用需要先获得license,可以直接购买,也可以从官网申请试用,卖萌哥有具体的介绍。我不太清楚从官网申请的流程,我们是直接联系的负责人,只需要给他们提供一个可以连接外网的集群IP地址。然后他们会很快制定license并返回一个安装包。
安装
安装需要有root权限,才能启动license。
# 启动license sever, 运行以下命令,要指定license file
cd senteion安装目录
libexec/licsrvr --start --log LOG_FILE icense file
# 检测是否启动,登录到sentieon安装目录或其他节点,运行以下命令,若无错误信息说明启动成功。
libexec/licclnt ping -s 集群的IP
环境配置主要是指定sentieon安装路径,license路径,license server窗口(即之前提供开license的集群IP地址)
使用
sentieon安装目录下有个doc文件给出了示例代码,总的来说sentieon有4个方面的产品。
- DNAseq和TNseq
基于GATK3.8 对DNA call 和RNA call 变异 - TNscope和DNAscope
是他们自己研发的模型和算法,分别用于RNA和DNA call变异.
对他们自己研发的TNscope和DNAscope我目前还没有使用过,看他们做过和DeepVariant的比较,效果还是不错的,可能最近也会测试一下。