生成netMHCpan输入文件

不能直接输入vcf真的很烦啊，氨基酸序列fasta太长了还会直接Segmentation Fault

过滤获得PASS的vcf

我只用了gatk里的af-onl-gnomAD文件过滤应该还可以annovar基于筛选的注释，然后用vcftools之类的东西筛选一下

vcftools --gzvcf /path/to/sample.filter.vcf.gz --remove-filtered-all --recode --stdout | gzip -c > /path/to/sample_PASS_only.vcf.gz

（应该还可以annovar基于筛选的注释再筛选一下，但是那样就需要把annovar生成的vcf用convert2annovar.pl转换成avinput格式再用annotate_variation.pl进行refGene注释再coding_change.pl转换成氨基酸序列，配对vcf包含正常组织和肿瘤组织至少2个样本，convert2annovar.pl会让选择全都转换成分开的文件还是只转换第1个，肿瘤是第2个及以后的，所以如果这样的话可能需要删掉正常样本那一列？）

cat input.vcf |awk -v OFS='\t' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$11}' > output.vcf

annovar转换成氨基酸fasta

annovartable_annovar.pl注释的时候不要选--remove，就可以保留中间文件sample.exonic_variant_function

coding_change.pl --includesnp --onlyAltering path/to/sample.exonic_variant_function /path/to/annovar/humandb/hg38_refGene.txt /path/to/annovar/humandb/hg38_refGeneMrna.fa --outfile /path/to/outdir/sample.fasta

转换fasta序列

修改序列ID格式

sed -i 's/>line.*NM_/>NM_/g' /path/to/outdir/*fasta
sed -i 's/ /;/g' /path/to/outdir/*fasta

去掉不需要的序列，此处参考NeoPredPipe脚本vcf_manipulate.py，不直接用这个软件是因为报错太多不想处理了-_- |||

#!/usr/bin/env python
import os
from Bio import SeqIO
# 指定需要处理的文件夹路径
folder_path = '/path/to/outdir/fastaFiles_1/'
id_list = ['WILDTYPE', 'immediate-stopgain', 'stop-loss']
# 遍历文件夹中的所有 fasta 文件
for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        # 打开文件并读取所有序列
        records = list(SeqIO.parse(file_path, 'fasta'))
        # 遍历每个序列，如果 ID 不包含上述关键词，将其保留到新列表中
        filtered_records = []
        for record in records:
                if not any(keyword in record.id for keyword in id_list):
                        filtered_records.append(record)
        # 将筛选后的序列写回文件
        if len(filtered_records) > 0:  # 如果有筛选结果才更新文件
                with open(file_path, 'w') as f:
                        SeqIO.write(filtered_records, f, 'fasta')

节选突变附近的序列，此处参考NeoPredPipe脚本NeoPredPipe.py

#!/usr/bin/env python
import sys
import os
import subprocess
from Bio import SeqIO

folder_path = '/public/home/xieruoqi/data/1.CR/neoantigen/fastaFiles_1/'

def ExtractSeq(record, pos, n, frameshift=False):
    '''
    Extracts the proper range of amino acids from the sequence and the epitope length
    :param seq: Sequence of mutated amino acid sequence.
    :param pos: Location of altered amino acid.
    :param n: Length of epitope for predictions.
    :return: Returns an amino acid sequence of appropriate lengths.
    '''
seq = str(record.seq)
    if pos<n: # Cases where start is less than n
        miniseq = seq[0:pos+(n)]
    elif len(seq)-pos < n: # Cases where end is less than n
        miniseq = seq[pos - (n - 1):len(seq)]
    else:
        miniseq = seq[pos-(n-1):pos+(n)]

    if frameshift:
        if pos<n:
            miniseq = seq[0:len(seq)] # When start is not n away from pos, we go until the end of the sequence
        else:
            miniseq = seq[pos-(n-1):len(seq)] # All other cases, we still go until the end of the sequence

    return(miniseq)

epitopeLens = [8,9,10,11]
for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        eps = {n: 0 for n in epitopeLens}
        epsIndels = {n: 0 for n in epitopeLens}
        for n in epitopeLens:
                mySeqs = []
                mySeqsIndels = []
                for record in SeqIO.parse(file_path, 'fasta'):
                        if 'silent' not in record.id.lower() and 'startloss' not in record.id.lower():
                                try:
                                        pos = int(record.id.replace(";;",";").split(";")[5].split('-')[0])-1
                                except ValueError:
                                        try:
                                                pos = int(record.id.replace(";;",";").split(";")[6].split('-')[0])-1
                                        except IndexError:
                                                sys.exit("ERROR: Could not process fasta line in reformatted fasta: %s" % (record.id))
                                if 'dup' in record.id.lower() or 'del' in record.id.lower() or 'ins' in record.id.lower() or 'fs' in record.id:
                                        miniseq = ExtractSeq(record, pos, n, True)
                                        mySeqsIndels.append(">"+record.id[0:100]+"\n"+miniseq+"\n")
                                else:
                                        miniseq = ExtractSeq(record, pos, n)
                                        mySeqs.append(">"+record.id+"\n"+miniseq+"\n")
                eps[n] = mySeqs
                epsIndels[n] = mySeqsIndels
        tmpFiles = {}
        for n in epitopeLens:
                tmpFasta = file_path.replace(".fasta",".tmp.%s.fasta"%(n))
                tmpFastaIndels = file_path.replace(".fasta",".tmp.%s.Indels.fasta"%(n))
                tmpFiles.update({n:tmpFasta})
                tmpFiles.update({str(n)+'.Indels':tmpFastaIndels})
                with open(tmpFasta, 'w') as outFile:
                        for line in eps[n]:
                                outFile.write(line)
                with open(tmpFastaIndels, 'w') as outFile:
                        for line in epsIndels[n]:
                                outFile.write(line)

HLA分型提取及格式转换

先提取可能包含6号染色体HLA区域reads，不要用肿瘤样本，用正常组织样本
然后选一个HLA分型预测软件，这里用的是OptiType
大多数软件都要求输入fq

samtools view -hb /path/to/sample_blood.final.bam \
                chr6:28510120-33480577 \
                chr6_GL000250v2_alt:1066038-4433734 \
                chr6_GL000251v2_alt:1283988-4540572 \
                chr6_GL000252v2_alt:1063230-4372611 \
                chr6_GL000253v2_alt:1062914-4548533 \
                chr6_GL000254v2_alt:1062887-4416229 \
                chr6_GL000255v2_alt:1063190-4323464 \
                chr6_GL000256v2_alt:1106450-4577757 \
                > /path/to/sample_blood.chr6.bam && \
        samtools view -hb -@ 8 -f 12 /path/to/sample_blood.final.bam \
                > /path/to/sample_blood.unmapped.bam && \
        samtools merge /path/to/sample_blood.merge.bam /path/to/sample_blood.chr6.bam /path/to/sample_blood.unmapped.bam && \
        samtools sort -n /path/to/sample_blood.merge.bam -@ 8 -o /path/to/sample_blood.hla.bam && \
        samtools fastq -@ 8 /path/to/sample_blood.hla.bam \
                -1 /path/to/sample_blood.hla.1.fq \
                -2 /path/to/sample_blood.hla.2.fq \
                -s /dev/null && \
        rm /path/to/sample_blood.chr6.bam /path/to/sample_blood.unmapped.bam /path/to/sample_blood.merge.bam && \
        OptiTypePipeline.py -i /path/to/sample_blood.hla.1.fq /path/to/sample_blood.hla.2.fq --dna -v -o /path/to/sample

然后把输出的tsv文件转换为netMHCpan需要的格式

cat /path/to/sample/*/*.tsv |awk -v OFS=',' 'NR==2 {print $2,$3,$4,$5,$6,$7}' > /path/to/sample/sample.HLA.txt && \
        sed -i "s/,/,HLA-/g" /path/to/sample/sample.HLA.txt && \
        sed -i "s/*//g" /path/to/sample/sample.HLA.txt && \
        sed -i "s/^/HLA-/g" /path/to/sample/sample.HLA.txt

然后就可以顺利运行netMHCpan啦，不过我还是不太理解为什么netMHCpan预测的Affinity对不上BindLevel

最后编辑于：2023.06.25 13:01:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

生成netMHCpan输入文件

过滤获得PASS的vcf

annovar转换成氨基酸fasta

转换fasta序列

HLA分型提取及格式转换

推荐阅读更多精彩内容