Bulk VDJ测序数据处理基本方法

本文为免疫组库数据预处理，仅简要介绍大体处理策略，更详细的命令行以及命令行和输出结果的意义，请大家自行查看各个工具的详细说明文档！

免疫组库测序，从文献和公开数据库搜寻来的数据，预处理策略简要介绍如下：

1. 从Reads拿到免疫库克隆列表

从测序Reads拿到克隆库列表，推荐使用MixCR。同样是java包，使用非常简单。首先，软件自带人、大小鼠的免疫库参考序列，使用的时候只要指定物种名即可。该工具把比对、克隆序列构建和克隆计数等步骤统一打包，使用mixcr analyze模块，一行代码即可实现一个免疫库测序样品的分析。示例命令行如下：

mixcr analyze amplicon # 扩增子测序
    -s <species> \ # 物种名称，hsa、mmu或rat
    --starting-material <startingMaterial>  \ # 测序材料、dna或rna
    --5-end <5End> --3-end <3End> \  # 引物信息
   --receptor-type xcr \ # 测序目标区段：tcr, bcr, tra, trb, trg, trd, igh, igk, igl等，xcr默认为所有区段
    --adapters <adapters> \  # 序列中是否包含引物？Raw Reads可以填adapters-present
    [OPTIONS] input_file1 [input_file2] analysis_name

MixCR得到的结果，同样可以使用vdjtools convert进行转换，变成vdjtools简洁明了的格式。

2. 数据集格式统统化简为vdjtools输入格式

目前，免疫组库分析工具相当多，这些分析工具得到的结果，格式往往不同。我建议，拿到免疫组库数据后，把数据统统转换为vdjtools的格式。首先，这种格式非常简洁明了，一共11列，每一列定义如下：

Column	Definition
count	克隆数目
frequency	克隆占比
CDR3nt	CDR3核酸序列
CDR3aa	CDR3氨基酸序列
V	V区
D	D区
J	J区
Vend	CDR3核酸序列上，V区结束的位置
Dstart	CDR3核酸序列上，D区起始的位置
Dend	CDR3核酸序列上，D区结束的位置
Jstart	CDR3核酸序列上，J区开始的位置

最后四列为可选输入，主要信息在前7列中都包括了。

使用vdjtools转格式非常简单，下载vdjtools的java包，使用vdjtools convert模块，按如下命令运行：

java -jar vdjtools-1.2.1.jar convert -S tool_name input_file out_prefix

其中，-S 参数表示输入数据的格式，必须要输入。vdjtools支持10种工具格式的转换，详见vdjtools-format。若不知道数据输入格式，可以尝试使用R包immunarch中的repLoad函数。immunarch同样支持上述多种工具的结果作为输入，而且repLoad读取这些输入的时候会自动识别输入格式。具体代码参见这里。

最后编辑于：2021.09.29 09:47:44