Annovar 注释SNP

参考文章:
http://annovar.openbioinformatics.org/en/latest/
https://cloud.tencent.com/developer/article/1054541

1.下载ANNOVAR软件包

需要使用.edu邮箱进行注册,然后作者会发最新的软件包到你邮箱
解压之后是有6个perl脚本,和两个文件夹humandb/, example/

drwxr-xr-x 3 1001 fqq1024 4.0K Jun 19 18:32 humandb
drwxr-xr-x 2 1001 fqq1024 4.0K Apr 17  2018 example
-rwxr-xr-x 1 1001 fqq1024 217K Apr 17  2018 annotate_variation.pl
-rwxr-xr-x 1 1001 fqq1024  27K Apr 17  2018 coding_change.pl
-rwxr-xr-x 1 1001 fqq1024 167K Apr 17  2018 convert2annovar.pl
-rwxr-xr-x 1 1001 fqq1024  19K Apr 17  2018 retrieve_seq_from_fasta.pl
-rwxr-xr-x 1 1001 fqq1024  39K Apr 17  2018 table_annovar.pl
-rwxr-xr-x 1 1001 fqq1024  22K Apr 17  2018 variants_reduction.pl

2.获取wegene 测序得到的SNP

 cat wegene/20190615wegene_core_results.txt |less -SN 
 1 # This data file generated by WeGene at: Sat, 15 Jun 2019 12:04:02
      2 #
      3 # This file contains the genotype called by WeGene with our
      4 # internal quality control pipeline. The low quality sites
      5 # were discarded. If we could not determine the genotypes,
      6 # it will be —-. As such, the call rate and accuracy may not
      7 # be one hundred percent. So this data is suitable only for
      8 # research, educational, and informational use and not for
      9 # medical or other use.
     10
     11 # This text file is a list of your data which are TAB-
     12 # separated. Each line corresponds to a single SNP or short
     13 # InDel (insertion or deletion).
     14 # For each SNP or short InDel, we provide its identifier (an
     15 # rsid or an internal id), its location on the reference human
     16 # genome (human assembly build 37, GRCh37) and the genotype
     17 # call oriented with respect to the plus strand on the human
     18 # reference sequence. For consistency, the genotypes are always
     19 #  two base pairs, including hemizygous calls.
     20
     21 # Please note, as our ability to call genotypes improves, it is
     22 # possible that your data may be slightly different at different
     23 #  times.
     24
     25 # rsid  chromosome      position        genotype
     26 rs9701055       1       565433  CC
     27 rs9651229       1       567667  CC

提取SNP信息,也就是把空格和#开头的删除

cat wegene/20190615wegene_core_results.txt |grep -v "#"|grep -v "^$"|less -SN
      1 rs9701055       1       565433  CC
      2 rs9651229       1       567667  CC
      3 rs9701872       1       568208  TT
      4 rs11497407      1       568527  GG

cat wegene/20190615wegene_core_results.txt |grep -v "#"|grep -v "^$" > mysnpID.txt

3. 将SNP文件转换为ANNOVAR的输入文件.avinput

perl convert2annovar.pl -format rsid example/snplist.txt -dbsnpfile humandb/hg19_snp138.txt > snplist.avinput 

这个时候你可能需要下载hg19_snp138数据至本地的humandb/
参考http://annovar.openbioinformatics.org/en/latest/user-guide/download/

#约12G大小
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp138 humandb/

4. 基于GWAS对SNP进行注释(Identify variants reported in previously published GWAS)

参考: http://annovar.openbioinformatics.org/en/latest/user-guide/region/#identify-variants-reported-in-previously-published-gwas

#下载GWAS数据60M
perl annotate_variation.pl -build hg19 -downdb gwasCatalog humandb/

#注释
perl annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype gwasCatalog snplist.avinput  humandb/

##注释很快3min之内完成
ls -lht annovar
-rw-r--r-- 1 root root    3.0M Jun 20 07:45 ex1.hg19_gwasCatalog
-rw-r--r-- 1 root root     45M Jun 20 07:34 snp.avinput
drwxr-xr-x 3 1001 fqq1024 4.0K Jun 19 18:32 humandb
drwxr-xr-x 2 1001 fqq1024 4.0K Apr 17  2018 example
-rwxr-xr-x 1 1001 fqq1024 217K Apr 17  2018 annotate_variation.pl
-rwxr-xr-x 1 1001 fqq1024  27K Apr 17  2018 coding_change.pl
-rwxr-xr-x 1 1001 fqq1024 167K Apr 17  2018 convert2annovar.pl
-rwxr-xr-x 1 1001 fqq1024  19K Apr 17  2018 retrieve_seq_from_fasta.pl
-rwxr-xr-x 1 1001 fqq1024  39K Apr 17  2018 table_annovar.pl
-rwxr-xr-x 1 1001 fqq1024  22K Apr 17  2018 variants_reduction.pl

5. 查看GWAS注释结果

cat annovar/ex1.hg19_gwasCatalog |less -SN
  1 gwasCatalog     Name=Pancreatic cancer  chr1    894573  894573  G       A       rs13303010
      2 gwasCatalog     Name=Body mass index    chr1    1005806 1005806 C       T       rs3934834
      3 gwasCatalog     Name=IgG glycosylation  chr1    1079198 1079198 T       C       rs11260603
      4 gwasCatalog     Name=Blood protein levels       chr1    1162435 1162435 C       A       rs3766186
      5 gwasCatalog     Name=Inflammatory bowel disease,Ulcerative colitis      chr1    1247494 1247494 T       C       rs12103

或者

6. 基于基因对SNP进行注释

#ANNOVAR压缩包里已经自带,太好了
perl annotate_variation.pl -downdb -buildver hg19 -webfrom annovar refGene humandb/

#基于hg19基因进行注释,注释很快2min之内完成
perl annotate_variation.pl -out ex1 -build hg19 snp.avinput humandb/

ls -lht annovar
-rw-r--r-- 1 root root    1.1K Jun 20 13:18 ex1.log
-rw-r--r-- 1 root root     11M Jun 20 13:18 ex1.exonic_variant_function
-rw-r--r-- 1 root root     16K Jun 20 13:18 ex1.invalid_input
-rw-r--r-- 1 root root     85M Jun 20 13:18 ex1.variant_function

7.查看基因的注释结果

有两种注释结果,具体可参考http://annovar.openbioinformatics.org/en/latest/user-guide/gene/

#全部的gene variant
cat annovar/ex1.variant_function |less -SN

#外显子上的gene variant
cat annovar/ex1.exonic_variant_function |less -SN   

#查看多少种gene variant
 cat ex1.exonic_variant_function |cut -f2|cut -d" " -f1|sort |uniq -c |sort -nr
  49585 nonsynonymous
  12001 synonymous
   2743 stopgain
    541 unknown
    385 frameshift
     46 stoploss
     26 nonframeshift
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容