本文为免疫组库数据预处理,仅简要介绍大体处理策略,更详细的命令行以及命令行和输出结果的意义,请大家自行查看各个工具的详细说明文档!
免疫组库测序,从文献和公开数据库搜寻来的数据,预处理策略简要介绍如下:
1. 从Reads拿到免疫库克隆列表
从测序Reads拿到克隆库列表,推荐使用MixCR。同样是java包,使用非常简单。首先,软件自带人、大小鼠的免疫库参考序列,使用的时候只要指定物种名即可。该工具把比对、克隆序列构建和克隆计数等步骤统一打包,使用mixcr analyze模块,一行代码即可实现一个免疫库测序样品的分析。示例命令行如下:
mixcr analyze amplicon # 扩增子测序
-s <species> \ # 物种名称,hsa、mmu或rat
--starting-material <startingMaterial> \ # 测序材料、dna或rna
--5-end <5End> --3-end <3End> \ # 引物信息
--receptor-type xcr \ # 测序目标区段:tcr, bcr, tra, trb, trg, trd, igh, igk, igl等,xcr默认为所有区段
--adapters <adapters> \ # 序列中是否包含引物?Raw Reads可以填adapters-present
[OPTIONS] input_file1 [input_file2] analysis_name
MixCR得到的结果,同样可以使用vdjtools convert进行转换,变成vdjtools简洁明了的格式。
2. 数据集格式统统化简为vdjtools输入格式
目前,免疫组库分析工具相当多,这些分析工具得到的结果,格式往往不同。我建议,拿到免疫组库数据后,把数据统统转换为vdjtools的格式。首先,这种格式非常简洁明了,一共11列,每一列定义如下:
Column | Definition |
---|---|
count | 克隆数目 |
frequency | 克隆占比 |
CDR3nt | CDR3核酸序列 |
CDR3aa | CDR3氨基酸序列 |
V | V区 |
D | D区 |
J | J区 |
Vend | CDR3核酸序列上,V区结束的位置 |
Dstart | CDR3核酸序列上,D区起始的位置 |
Dend | CDR3核酸序列上,D区结束的位置 |
Jstart | CDR3核酸序列上,J区开始的位置 |
最后四列为可选输入,主要信息在前7列中都包括了。
使用vdjtools转格式非常简单,下载vdjtools的java包,使用vdjtools convert模块,按如下命令运行:
java -jar vdjtools-1.2.1.jar convert -S tool_name input_file out_prefix
其中,-S
参数表示输入数据的格式,必须要输入。vdjtools支持10种工具格式的转换,详见vdjtools-format。若不知道数据输入格式,可以尝试使用R包immunarch中的repLoad函数。immunarch同样支持上述多种工具的结果作为输入,而且repLoad读取这些输入的时候会自动识别输入格式。具体代码参见这里。