[DNA-Seq] 全基因组高级分析

1、MutsigCV

Mutsig代表的就是"mutation Significance",简单来说就是把所有的tumor样本集合起来,算他们的变异,算出一个显著性的阈值,超过阈值的即为显著变异。


Mutsig原理.png

其中CV代表covariants,包括了DNA复制时间,染色质开放程度,转录活性。


mutsigCV.png

软件运行方法可以参考如下:
CGA: mutsig
生信菜鸟团
简书:MutSigCV找DriverGene
简书:泛癌研究

我用的脚本是官网推荐的,由于没有matlab lisence就用的free MCR,除了自己的maf文件剩下的是下载文件。
maf文件的生成可以参考maftools教程,简单说一下,将分析得到的vcf文件用annovar软件注释后,生成maf,用作MutSig分析的话还需要用maftools将基因名转化一下。简单的脚本如下:

library(maftools)
maffile <- read.maf(maf = maffile)
mafcorrect <- prepareMutSig(maf = maffile)
run_MutSigCV.sh <path_to_MCR> my_mutations.maf exome_full192.coverage.txt gene.covariates.txt my_results mutation_type_dictionary_file.txt chr_files_hg19

生成结果:<prefix>.sig_genes.txt
有跑出的significant gene信息,每行为一个基因,后面跟着其Q-value,按q-value排序。

2、GISTIC

Broad Institute发布的一款关于somatic copy-number alterations 驱动基因的软件,安装有点费劲,请参考INSTALL.txt,或中文版参考:
简书:GISTIC2.0安装与使用
生信菜鸟团:用GISTIC多个segment文件来找SCNA变异

输入文件:

1、segmentation file (-seg)(REQUIRED)
我用的seg文件来源于上游cnvkit分析完的结果导出的seg文件,共六列,每列的结果如下:

The column headers are:
(1) Sample (sample name)
(2) Chromosome (chromosome number)
(3) Start Position (segment start position, in bases)
(4) End Position (segment end position, in bases)
(5) Num Markers (number of markers in segment)
(6) Seg.CN (log2() -1 of copy number)

2、 Markers File (-mk)(optional)
The markers file identifies the marker positions used in the original dataset (before segmentation) for array or capture experiments.

3、Reference Genome File (-refgene)(REQUIRED)
GISTIC安装的时候refgenefiles/文件夹下有提供Reference genome files created in MatlabTM,mat格式,不可查看,根据自己用的参考基因组版本选择。

4、Array List File (-alf)(optional)
首行内容为“array”,接下来每行是一个sample名,指定了分析用的sample子集。

5、CNV File (-cnv)(optional)
该文件是为了排除germline CNV。

输出文件:

1、All Lesions File (all_lesions.conf_XX.txt, where XX is the confidence level)
该文件总结了GISTIC分析的所有结果,包括region、p值、每个样本的

Region Data
Columns 1-9 present the data about the significant regions as follows:
(1) Unique Name: A name assigned to identify the region
(2) Descriptor: The genomic descriptor of that region.
(3) Wide Peak Limits: The "wide peak" boundaries most likely to contain the targeted genes. These are listed in genomic coordinates and marker (or probe) indices.

(4) Peak Limits: The boundaries of the region of maximal amplification or deletion.
(5) Region Limits: The boundaries of the entire significant region of amplification or deletion.
(6) q-values: The q-value of the peak region.
(7) Residual q-values: The q-value of the peak region after removing ("peeling off") amplifications or deletions that overlap other, more significant peak regions in the same chromosome.
(8) Broad or Focal: Identifies whether the region reaches significance due primarily to broad events (called "broad"), focal events (called "focal"), or independently significant broad and focal events (called "both").
(9) Amplitude Threshold: Key giving the meaning of values in the subsequent columns associated with each sample.

Sample Data
Each of the analyzed samples is represented in one of the columns following the lesion data (columns 10 through end). The data contained in these columns varies slightly by section of the file.
A '0' indicates that the copy number of the sample was not amplified or deleted beyond the threshold amount in that peak region. A '1' indicates that the sample had low-level copy number aberrations (exceeding the low threshold indicated in column 9), and a '2' indicates that the sample had high-level copy number aberrations (exceeding the high threshold indicated in column 9).

2、Amplification/Deletion Genes File (amp(/del)_genes.conf_XX.txt, where XX is the confidence level)
每列是一个amp或del,每列有四个信息:cytoband,q值,boundaries,相关的基因(不含基因的peak显示其附近的基因,用[]表示)

The amp genes file contains one column for each amplification peak identified in the GISTIC analysis. The first four rows are:

(1) cytoband
(2) q-value
(3) residual q-value
(4) wide peak boundaries

3、Gistic Scores File (scores.gistic)
The scores file lists the q-values [presented as -log10(q)], G-scores, average amplitudes among aberrant samples, and frequency of aberration, across the genome for both amplifications and deletions.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335