GenomeScope 2.0 评估基因组大小、杂合度和重复序列

GenomeScope 是2017年发表在 bioinformatic 的一个工具,这个工具的目的就是处理一些高复杂度的基因组,比如说高杂合度或者基因组非常大的物种。GenomeScope只能预测二倍体基因组,GenomeScope 2.0可以预测多倍体物种。

安装

$ git clone https://github.com/tbenavi1/genomescope2.0.git
$ cd genomescope2.0/
$ Rscript install.R

在软件的安装目录下,genomescopre.R文件是核心的运行脚本,用法如下

$ Rscript genomescope.R \
  -i histogram_file  \
  -o output_dir \
  -k k-mer_length

可选参数:
  -i input histogram_file (from KMC or jellyfish) ,如jellyfish软件产生的kmer频数分布数据
  -o output_dir
  -k kmer length used to calculate kmer spectra [default 21] ;

必选参数:
  -p PLOIDY, --ploidy PLOIDY ploidy (1, 2, 3, 4, 5, or 6) for model to use [default 2] ;
  -m MAX_KMERCOV, --max_kmercov MAX_KMERCOV optional maximum kmer coverage threshold (kmers with coverage greater than max_kmercov are ignored by the model) ;
  -n NAME_PREFIX, --name_prefix NAME_PREFIX optional name_prefix for output files ;
  -l LAMBDA, --lambda LAMBDA, --kcov LAMBDA, --kmercov LAMBDA optional initial kmercov estimate for model to use ;

示例:

/path/R/3.1.1/bin/Rscript   /path/genomescope2.0/genomescope.R 
  -i /home/liuliu/test/Survey//kmer_21/21mer.out.hist \
  -o /home/liuliu/test/Survey/kmer_21/output_p3  \
  -k 21  \
  -p 3  \
  -n 21.p3 \

在运行过程中,终端会输出如下信息

GenomeScope analyzing /home/liuliu/test/Survey/kmer_21/21mer.out.hist p=3 k=21 outdir=/home/liuliu/test/Survey//kmer_21/output_p3
aaa:98.4% aab:1.51% abc:0.14%
Model converged het:0.0165 kcov:18.4 err:0.00279 model fit:0.541 len:376278986

het表示杂合度,为1.65%;len表示基因组大小,为376M左右。

输出目录output_p3文件列表如下

|-- 21.p3_linear_plot.png
|-- 21.p3_log_plot.png
|-- 21.p3_model.txt
|-- 21.p3_progress.txt
|-- 21.p3_summary.txt
|-- 21.p3_transformed_linear_plot.png
`-- 21.p3_transformed_log_plot.png

0 directories, 7 files

通常关注summary.txt, transformed_linear_plot.png这2个文件。

1. summary.txt

内容如下:

$cat 21.p2_summary.txt
GenomeScope version 2.0
input file = /home/liuliu/test/Survey//kmer_21/21mer.out.hist
output directory = /home/liuliu/test/Survey/kmer_21/output_p3
p = 3
k = 21
name prefix = 21.p3

property                      min               max               
Homozygous (aaa)              98.3038%          98.4035%          
Heterozygous (not aaa)        1.5965%           1.69625%          
aab                           1.47668%          1.53603%          
abc                           0.119818%         0.160215%         
Genome Haploid Length         375,321,002 bp    376,278,986 bp    
Genome Repeat Length          124,068,954 bp    124,385,633 bp    
Genome Unique Length          251,252,048 bp    251,893,353 bp    
Model Fit                     72.9102%          97.1951%          
Read Error Rate               0.279346%         0.279346%

在该文件中,会给出杂合度,基因组大小,重复片段长度等详细信息。

结果分为三列:

  • 第一列为统计指标;
  • 第二列为对应指标预测的最小值;
  • 第三列为对应指标预测的最大值

有疑问,可以对照模型进行检验。

2. transformed_linear_plot.png

Occasionally, it is difficult to determine whether a peak in the kmer spectrum is a major peak. For this reason, GenomeScope 2.0 analyzes a transformed k-mer spectrum, in which the heights of higher-order peaks are increased.

K-mer覆盖度-频数分布图如下:

21.p3_transformed_linear_plot.png
  • 蓝色柱子是实际观测值;
  • 黑色拟合线是除去被认为是错误的部分(橙红色拟合线部分)之后剩下的所有k-mer,这些被认为是可靠的kmer数据,只拿这部分数据来评估基因组的大小;
  • 黄色拟合线被认为来自基因组非重复区域的K-mer分布;
  • 橙红色拟合线部分对应着深度过低的kmer,这些kmer被认为是测序错误引入的;
  • 垂直的黑色虚线为预测最低深度峰的整倍数覆盖度;

kcov指的是杂合峰的覆盖度。可以看到使用数据预测K-mer最低深度峰在18.4X处。一般情况下杂合度大于1%就会存在一个高于主峰的杂合峰。

基因组越大,杂合度也大,重复片段越大,该物种的组装难度就越大。

讨论:
  基因组预测大小和参数 Max kmer coverage 密切相关。GenomeScope默认会过滤掉出现10,000次以上的kmers,避免细胞器基因组的影响,如果你觉得基因组小了,那么就把数值调整的大一点。

基因组survey介绍了如何通过jellyfish统计k-mer然后绘制k-mer分布图研究基因组的方法。

对于不同的基因组杂合度,kmer分布如下

image

Smudgeplot【染色体倍性鉴定】

  1. 识别smudge的边界;
  2. smudge过滤;
  3. 单倍体覆盖率的估计;
  • 首先,将二维空间划分为bins,计算每个bin中k-mer对的数量。

  • 然后,每个smudge的中心被选择为对应于局部极大值的bin(以k-mer对的数量表示)。 所有其他bin中的k-mer pairs被聚合到相邻最近的bin ( 该bin被指定为smudge中心 )。

一旦确定了每个smudge的边界,就过滤那些少于0.5%数据集的smudge(包含少于0.5%的k-mer对),因为这些通常代表基因组的重复结构,并且通常会由于表示它们的k-mer太少而被放错位置。

对于第一次估计单倍体覆盖度,我们先计算每个smudge的覆盖度,然后计算一个总体覆盖度作为这些smudge的加权平均值,其中权重是每个smudge内k-mer对的数目。

为了计算单个smudge的覆盖度,我们首先根据其假定结构对smudge进行标记。 例如,在所有相对较小的覆盖范围接近0.5的污迹中,假定覆盖范围最低的污迹是AB,而其他污迹则以AB污迹作为参考。 这一过程是继续的所有相关的次要覆盖的识别污点,直到所有污点被标记。

For example, of all the smudges with a relative minor coverage near 0.5, the one with the lowest sum of coverages is assumed to be AB and others are labeled using the AB smudge as a reference. This process is continued for all relative minor coverages of the identified smudges until all smudges are labeled.

Finally, the estimate of monoploid coverage for an individual smudge is given by its sum of coverages divided by the number of k-mers that make up its labeled structure. For example, the estimate for an AAB smudge would be CovA+CovB since three k-mers make up the AAB structure.

https://github.com/tbenavi1/genomescope2.0
http://www.cbcb.umd.edu/software/quake/faq.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342