单体型分析

单倍型分析
理论上来说,单倍型的类别是2N,但由于LD的存在,会使得单倍型的类别远远的小于2N,但是如果当N的数目很大,即便是类别少,在整个群体中进行分类也会有很多种单倍型。这样的情况,可以对单倍型分成单倍型域,单体型域内几乎不发生重组

image.png

[理学]动物数量性状单倍体型分析及其应用.ppt-原创力文档 (book118.com)
Hapview软件可以计算block和tagSNP,但是一方面对输入的数据格式要求严格和SNP数目有限制,今天找到用plink计算block和tagSNP的方法,如果snp数目少的话,可以用Hapview

Hapview计算block和tagSNP

Hapview文件格式的要求

test.ped文件要求

image.png

该文件的第一列是家系的ID,如果是无关个体之间的研究,该列应为不重复的ID号;

第二列为个体的ID,做无关个体的研究,每个个体的编号不能重复;

第三列是父亲的ID,如果是无关个体的研究,该列为0;

第四列是母亲的ID,如果是无关个体的研究,该列为0;

第五列是个体的性别信息,其中1代表男性,2代表女性,如果研究个体的性别未知,该列用0表示;

第六列是个体的患病情况,0代表患病情况未知,1代表未患病, 2代表患病;

第七列之后,每两列代表个体一个位点的SNP信息,该软件不能识别A/T/C/G/N碱基,因此后续的SNP信息只能用数字表示, 其中1=A; 2=C; 3=G; 4=T; 缺失碱基用0表示;

sample.info文件

image.png

文件格式转换

##对vcf文件转换

###读入数据
rm(list=ls())
# choose.files()
library(vcfR)
setwd("D:\\mywork\\mywork\\16.小麦穗型世界和中国范围内变化GWAS\\1.321鲁非GWAS分析结果\\8.株型结果\\12.株高1A结果\\")
vcf_data <- read.vcfR("SNP_246_snp_plant_height_1A.chr1A.45791400-49094709.recode.vcf", verbose = FALSE )

##VCF文件包含GT:AD:GL,GT 代表的是genotype;AD代表的是allel depth;DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加
#GL:三种基因型(RR RA AA)出现的可能性,R表示参考碱基,A表示变异碱基

vcf_data_gt <- extract.gt(vcf_data ,element="GT")


dim(vcf_data_gt)
vcf_data_fix <- vcf_data@fix
##对数据进行替换
##首先将缺失替换成0.5

vcf_data_gt[is.na(vcf_data_gt)] <- "0 0"
for (i in 1:9875) {
  vcf_data_gt[i,][vcf_data_gt[i,] == '0/0']<- paste(vcf_data_fix[i,4],vcf_data_fix[i,4],sep=" ")
  vcf_data_gt[i,][vcf_data_gt[i,] == '1/1']<- paste(vcf_data_fix[i,5],vcf_data_fix[i,5],sep=" ")
  ##将杂合也替换成0.5
  vcf_data_gt[i,][vcf_data_gt[i,] == '0/1']<- paste(vcf_data_fix[i,4],vcf_data_fix[i,5],sep=" ")
  vcf_data_gt[i,][vcf_data_gt[i,] == '1/0']<- paste(vcf_data_fix[i,5],vcf_data_fix[i,4],sep=" ")
  #
  
}

for (i in 1:9875) {
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A A']<- "1 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C C']<- "2 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G G']<- "3 3"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T T']<- "4 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A C']<- "1 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A G']<- "1 3"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A T']<- "1 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C A']<- "2 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C G']<- "2 3"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C T']<- "2 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G A']<- "3 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G C']<- "3 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G T']<- "3 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T A']<- "4 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T C']<- "4 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T G']<- "4 3"
  
  
  
}

vcf_data_use<-t(vcf_data_gt)


write.csv(vcf_data_use,"vcf_data_use_HAPVIEW.csv")

直接将输出的数据按照格式要求整理好后,复制到他给的例子文件种,昨天进行这一步用自己将txt文件变成.ped文件一直出问题
Hapview如何输入数据如何进行参数的调整,可以参考下边连接
单倍型分析软件Haploview的导入格式及使用 - 云+社区 - 腾讯云 (tencent.com)
得到block绘图

image.png

存在的问题
(1)Hapview中计算block四种算法的区别还没研究透
(2)Hapview 存在java运行慢,SNP数目要求小,如果输入的数据多的话,导致软件直接卡死

用plink得到tagSNP

###首先得到目标区段的snp


sh get_gene_snp.sh steam_3D.txt chr3D.vcf

##将vcf文件修改成bed格式
plink --vcf steam4_peak_snp.chr2A.613558313-619417320.recode.vcf --recode --out test--const-fid --allow-extra-chr
plink --allow-extra-chr --noweb -file test--const-fid --out test1

##计算block
 plink --bfile test1 --blocks no-pheno-req --allow-extra-chr
##如果是bed格式就用--bfile
##如果是ped格式就用--file


##计算tagSNP
##首先准备一个block SNP文件信息,每一行是一个snp

##查看steam4_tagSNP
plink --bfile test1 --list-all --show-tags steam4_tagSNP.txt  --allow-extra-chr




[理学]动物数量性状单倍体型分析及其应用.ppt-原创力文档 (book118.com)
干货:如何利用1000 Genomes数据挑选tagSNP? | 基因有限公司 (genecompany.com)
单倍型分析软件Haploview的导入格式及使用 - 云+社区 - 腾讯云 (tencent.com)
SNP连锁不平衡度量和单倍型构建 | Yang's Garden (yangli.name)
人类基因组的Phasing原理是什么? - 知乎 (zhihu.com)
单倍体型分析方法及生物医学文献猪繁殖性状候选基因挖掘 - 豆丁网 (docin.com)
PLINK 连锁不平衡分析LD - 知乎 (zhihu.com)
(13条消息) haploview进行连锁不平衡分析_庐州月光的博客-CSDN博客

(13条消息) 使用shapeit进行单倍型分析_庐州月光的博客-CSDN博客

(13条消息) 使用Eagle2进行单倍型分析_庐州月光的博客-CSDN博客
基于RAINBOW的单倍型全基因组关联分析(haplotype-based GWAS)教程 - 知乎 (zhihu.com)

【翻译】RAINBOW:采用新型SNP-set方法的基于单倍型的全基因组关联分析【第二部分:材料和方法】 - Minerw - 博客园 (cnblogs.com)

用Beagle做基因型填充(Imputation) - 简书 (jianshu.com)
SR4R数据库:水稻4个SNP集的筛选及其应用 - 小xuo生 - 博客园 (cnblogs.com)

OmicShare Forum 广州基迪奥生物信息论坛 - Powered by Discuz!

基因组数据的定向和填充(Phasing and Imputation) - 简书 (jianshu.com)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容

  • 单体型概念及起源 单体型的概念 一个染色体区域中所有相关联的SNP等位基因的集合或位于染色体上某一区域的一组相关联...
    花生学生信阅读 2,824评论 0 14
  • 目前热门的单体型基因组组装,以下内容来源于安诺的单体型基因组组装新品发布会单体型也称为单倍型。二倍体有两套染色体单...
    wo_monic阅读 2,247评论 0 14
  • 作者:Arno审稿:童蒙编辑:angelica 概念 01 同源染色体 在介绍单体型之前,先来了解几个概念,即 同...
    生信阿拉丁阅读 3,092评论 0 16
  • Tag SNP 理论上,研究者通过对全部一千万个SNP位点都进行基因分型,也能够寻找到这样的区域。但是,目前用这种...
    花生学生信阅读 1,819评论 0 6
  • 基本概念 单体型:又称单倍体型或单元型,是个体组织中,完全遗传自父母双方中某一亲本的一组等位基因。拥有特定SNP的...
    EwanH阅读 19,170评论 7 33