生成netMHCpan输入文件

不能直接输入vcf真的很烦啊,氨基酸序列fasta太长了还会直接Segmentation Fault

过滤获得PASS的vcf

我只用了gatk里的af-onl-gnomAD文件过滤应该还可以annovar基于筛选的注释,然后用vcftools之类的东西筛选一下

vcftools --gzvcf /path/to/sample.filter.vcf.gz --remove-filtered-all --recode --stdout | gzip -c > /path/to/sample_PASS_only.vcf.gz

(应该还可以annovar基于筛选的注释再筛选一下,但是那样就需要把annovar生成的vcf用convert2annovar.pl转换成avinput格式再用annotate_variation.pl进行refGene注释再coding_change.pl转换成氨基酸序列,配对vcf包含正常组织和肿瘤组织至少2个样本,convert2annovar.pl会让选择全都转换成分开的文件还是只转换第1个,肿瘤是第2个及以后的,所以如果这样的话可能需要删掉正常样本那一列?)

cat input.vcf |awk -v OFS='\t' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$11}' > output.vcf

annovar转换成氨基酸fasta

annovartable_annovar.pl注释的时候不要选--remove,就可以保留中间文件sample.exonic_variant_function

coding_change.pl --includesnp --onlyAltering path/to/sample.exonic_variant_function /path/to/annovar/humandb/hg38_refGene.txt /path/to/annovar/humandb/hg38_refGeneMrna.fa --outfile /path/to/outdir/sample.fasta

转换fasta序列

修改序列ID格式

sed -i 's/>line.*NM_/>NM_/g' /path/to/outdir/*fasta
sed -i 's/ /;/g' /path/to/outdir/*fasta

去掉不需要的序列,此处参考NeoPredPipe脚本vcf_manipulate.py,不直接用这个软件是因为报错太多不想处理了-_- |||

#!/usr/bin/env python
import os
from Bio import SeqIO
# 指定需要处理的文件夹路径
folder_path = '/path/to/outdir/fastaFiles_1/'
id_list = ['WILDTYPE', 'immediate-stopgain', 'stop-loss']
# 遍历文件夹中的所有 fasta 文件
for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        # 打开文件并读取所有序列
        records = list(SeqIO.parse(file_path, 'fasta'))
        # 遍历每个序列,如果 ID 不包含上述关键词,将其保留到新列表中
        filtered_records = []
        for record in records:
                if not any(keyword in record.id for keyword in id_list):
                        filtered_records.append(record)
        # 将筛选后的序列写回文件
        if len(filtered_records) > 0:  # 如果有筛选结果才更新文件
                with open(file_path, 'w') as f:
                        SeqIO.write(filtered_records, f, 'fasta')

节选突变附近的序列,此处参考NeoPredPipe脚本NeoPredPipe.py

#!/usr/bin/env python
import sys
import os
import subprocess
from Bio import SeqIO

folder_path = '/public/home/xieruoqi/data/1.CR/neoantigen/fastaFiles_1/'

def ExtractSeq(record, pos, n, frameshift=False):
    '''
    Extracts the proper range of amino acids from the sequence and the epitope length
    :param seq: Sequence of mutated amino acid sequence.
    :param pos: Location of altered amino acid.
    :param n: Length of epitope for predictions.
    :return: Returns an amino acid sequence of appropriate lengths.
    '''
seq = str(record.seq)
    if pos<n: # Cases where start is less than n
        miniseq = seq[0:pos+(n)]
    elif len(seq)-pos < n: # Cases where end is less than n
        miniseq = seq[pos - (n - 1):len(seq)]
    else:
        miniseq = seq[pos-(n-1):pos+(n)]

    if frameshift:
        if pos<n:
            miniseq = seq[0:len(seq)] # When start is not n away from pos, we go until the end of the sequence
        else:
            miniseq = seq[pos-(n-1):len(seq)] # All other cases, we still go until the end of the sequence

    return(miniseq)

epitopeLens = [8,9,10,11]
for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        eps = {n: 0 for n in epitopeLens}
        epsIndels = {n: 0 for n in epitopeLens}
        for n in epitopeLens:
                mySeqs = []
                mySeqsIndels = []
                for record in SeqIO.parse(file_path, 'fasta'):
                        if 'silent' not in record.id.lower() and 'startloss' not in record.id.lower():
                                try:
                                        pos = int(record.id.replace(";;",";").split(";")[5].split('-')[0])-1
                                except ValueError:
                                        try:
                                                pos = int(record.id.replace(";;",";").split(";")[6].split('-')[0])-1
                                        except IndexError:
                                                sys.exit("ERROR: Could not process fasta line in reformatted fasta: %s" % (record.id))
                                if 'dup' in record.id.lower() or 'del' in record.id.lower() or 'ins' in record.id.lower() or 'fs' in record.id:
                                        miniseq = ExtractSeq(record, pos, n, True)
                                        mySeqsIndels.append(">"+record.id[0:100]+"\n"+miniseq+"\n")
                                else:
                                        miniseq = ExtractSeq(record, pos, n)
                                        mySeqs.append(">"+record.id+"\n"+miniseq+"\n")
                eps[n] = mySeqs
                epsIndels[n] = mySeqsIndels
        tmpFiles = {}
        for n in epitopeLens:
                tmpFasta = file_path.replace(".fasta",".tmp.%s.fasta"%(n))
                tmpFastaIndels = file_path.replace(".fasta",".tmp.%s.Indels.fasta"%(n))
                tmpFiles.update({n:tmpFasta})
                tmpFiles.update({str(n)+'.Indels':tmpFastaIndels})
                with open(tmpFasta, 'w') as outFile:
                        for line in eps[n]:
                                outFile.write(line)
                with open(tmpFastaIndels, 'w') as outFile:
                        for line in epsIndels[n]:
                                outFile.write(line)

HLA分型提取及格式转换

先提取可能包含6号染色体HLA区域reads,不要用肿瘤样本,用正常组织样本
然后选一个HLA分型预测软件,这里用的是OptiType
大多数软件都要求输入fq

samtools view -hb /path/to/sample_blood.final.bam \
                chr6:28510120-33480577 \
                chr6_GL000250v2_alt:1066038-4433734 \
                chr6_GL000251v2_alt:1283988-4540572 \
                chr6_GL000252v2_alt:1063230-4372611 \
                chr6_GL000253v2_alt:1062914-4548533 \
                chr6_GL000254v2_alt:1062887-4416229 \
                chr6_GL000255v2_alt:1063190-4323464 \
                chr6_GL000256v2_alt:1106450-4577757 \
                > /path/to/sample_blood.chr6.bam && \
        samtools view -hb -@ 8 -f 12 /path/to/sample_blood.final.bam \
                > /path/to/sample_blood.unmapped.bam && \
        samtools merge /path/to/sample_blood.merge.bam /path/to/sample_blood.chr6.bam /path/to/sample_blood.unmapped.bam && \
        samtools sort -n /path/to/sample_blood.merge.bam -@ 8 -o /path/to/sample_blood.hla.bam && \
        samtools fastq -@ 8 /path/to/sample_blood.hla.bam \
                -1 /path/to/sample_blood.hla.1.fq \
                -2 /path/to/sample_blood.hla.2.fq \
                -s /dev/null && \
        rm /path/to/sample_blood.chr6.bam /path/to/sample_blood.unmapped.bam /path/to/sample_blood.merge.bam && \
        OptiTypePipeline.py -i /path/to/sample_blood.hla.1.fq /path/to/sample_blood.hla.2.fq --dna -v -o /path/to/sample

然后把输出的tsv文件转换为netMHCpan需要的格式

cat /path/to/sample/*/*.tsv |awk -v OFS=',' 'NR==2 {print $2,$3,$4,$5,$6,$7}' > /path/to/sample/sample.HLA.txt && \
        sed -i "s/,/,HLA-/g" /path/to/sample/sample.HLA.txt && \
        sed -i "s/*//g" /path/to/sample/sample.HLA.txt && \
        sed -i "s/^/HLA-/g" /path/to/sample/sample.HLA.txt

然后就可以顺利运行netMHCpan啦,不过我还是不太理解为什么netMHCpan预测的Affinity对不上BindLevel

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,482评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,377评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,762评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,273评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,289评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,046评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,351评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,988评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,476评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,948评论 2 324
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,064评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,712评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,261评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,264评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,486评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,511评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,802评论 2 345

推荐阅读更多精彩内容

  • 一、简介 会得到一系列变异数据,这些变异数据只是告诉我们在基因组的某个位置发生了一段序列的改变,至于这个改变会不会...
    生信师姐阅读 15,991评论 1 37
  • 结果文件的解读 输出文件1:*.variant_function 第一个文件包含所有变异的注释,方法是在每个输入行...
    生信师姐阅读 17,693评论 2 40
  • 一 结果文件说明 1 VCF (Variant Call Format)是储存Variation结果的文件格式 ...
    九月_1012阅读 26,361评论 4 35
  • annovar是一款常用的注释软件,可在其官网注册后下载。annovar无需安装,下载后解压即可直接使用。anno...
    井底蛙蛙呱呱呱阅读 14,034评论 1 15
  • 上次我们整理到bwa比对后得到bam文件,下一步我们要通过GATK流程从bam文件中call variant。 一...
    耕读者阅读 1,966评论 0 4