单细胞研究联合T细胞受体分析2022年【最新进展】

这篇文章是单细胞转录组（scRNAseq）和TCRseq联合分析的一个综述，介绍了目前关于这两种数据联合分析的最新进展(2022年)。

image.png

1. 介绍

1.1 T细胞受体的作用

T细胞是适应性免疫系统的核心角色，在免疫相关疾病的控制中发挥着至关重要的作用，除此之外，T细胞还是免疫接种和免疫治疗反应不可或缺的媒介。通过产生高度多样化的T细胞库，适应性免疫系统就具备了一个强大的工具包，以防御致病微生物和癌症。T细胞库的这种多样性是通过V(D)J重组而产生大量不同的T细胞受体(TCR)复合物实现的。TCR是表达在细胞表面，能够识别来自外源或自身抗原的小的多肽（表位），并由抗原呈递细胞上的主要组织相容性复合体(MHC)分子呈递。当TCR与其同源肽-mhc (pMHC)复合物结合时，T细胞介导的免疫反应被触发。

大多数T细胞受体是由一个α链和一个β链组成，多样性是由α链上的V，J基因和β链上的D基因产生。这是一级多样性，也称为组合多样性（combinatorial diversity）。重组过程中，非模板化的核苷酸在片段的连接处被添加和删除，大大增加了TCR库的潜在多样性。这就是所谓的连接多样性（junctional diversity）。最后，通过α和β链的近似无约束配对建立了一个额外的多样性水平。总共的TCR库的多样性理论上达到了10的15次方到10的61次方，而实际上人体中的TCR多样性受到了T细胞总数的限制，也能达到3x10的11次方

1.2 TCR测序

TCR测序已经成为了理解复杂TCR库动态的重要工具。一个clonotype通常是由V基因，CDR3氨基酸序列和J基因组合而成。一般来说，在一个bulk库样本中unique的clone数量在 103到 106之间，这取决于clonality，采样条件和测序深度。然而，尽管TCR测序已经变得不可或缺，但传统的bulk方法只能提供一层信息，因为它们仅仅捕捉了TCR的特征。考虑到T细胞表现出广泛的免疫表型，能有各种功能，从分泌(抗)炎症细胞因子到释放细胞毒性效应分子诱导细胞死亡，受体特征不能完全捕捉它们起源的T细胞的功能。传统上，免疫学就依赖于靶向技术，如流式细胞仪，来描述这些独特的免疫细胞表型。流式细胞仪分选细胞是根据细胞表面表达特定的marker 蛋白来分选的。用荧光标记抗体来标记这些目标。然而，可用荧光团的数量受到发射光谱重叠的限制，限制了可测量参数的数量。尽管有些技术能达到50个，比如（CyTOF），但还是在用户使用特定数量的预定义marker上受限。相反，RNA测序可以以一种无偏倚的方式捕获细胞亚群的表型，因为它不局限于有限的和有针对性的marker选择。然而，在转录水平上的基因表达不足以区分特定的细胞亚群，而蛋白质标记可能更具有描述性。例如，不同CD45异构体的表达，使我们能够区分原始T细胞和记忆T细胞，不能在转录水平上识别。此外，大量RNA测序通常会产生来自样本中所有细胞的基因表达谱的复合组合，这不能充分反映细胞多样性。因此，bulk RNA测序通常需要预先用荧光标记抗体对目标蛋白标记物进行细胞分选，以纯化样本中的细胞类型。

这就用到了单细胞RNAseq测序。与这些传统技术相比，一个更有前途的替代方案是单细胞RNA测序，它利用了组合多个信息层的能力，例如单细胞内的基因表达和TCR序列的配对测序。这种多模态的特征并不局限于转录水平。例如，抗体的添加与特异性寡核苷酸条形码(Feature Barcoding)连接，使表面蛋白的表征成为可能，类似于流式细胞术。然而，尽管单细胞测序前景光明，但它在几个方面仍然具有挑战性。与传统的(Bulk)技术相比，单细胞测序仍然是昂贵和劳动密集型的。因此，样本通量通常较低。然而，随着单细胞测序领域的迅速发展，最近的发展已经允许单独的样品多路复用，包括允许在样品之间进行区分的寡核苷酸标记抗体(Cell hash)，降低成本并允许更大的样品大小。单细胞平台能够测序的细胞数量也比Bulk方法低几个数量级。例如，大多数单细胞测序技术只允许评估多达10的4次方个细胞，而bulk测序技术通常可以自信地评估大于10的5次方个细胞。然而，随着技术的进步，单细胞测序的这一数字正在上升。

有很多平台可以在单细胞水平上对T细胞进行表征，每个平台的区别在于：在细胞的制备和实验用的材料，如何富集用于测序等方面都有所不同。这些因素对测序的通量、深度、成本，甚至从多形态生成数据的能力都有重大影响。由于之前的综述已经广泛地比较了多种单细胞测序方法，我们将不再进一步讨论各自的方法。相反，在这篇综述中，我们将重点关注配对的T细胞基因表达谱及其TCR序列的数据分析。除了前面描述的优点外，单细胞TCR测序还具有方便配对α和β链的优点。这是很难实现的传统bulk方法，因为在bulk实验中TCR分子的来源未知。此外，整体技术的技术限制，以及D基因额外重组带来的较大的异质性（heterogeneity），导致了我们对TCR β链的兴趣较为优先。因此，我们对TCR识别的大部分理解都是基于β链的单独测序。然而，已有研究表明，α链也在不同程度上部分介导肽- mhc复合体(pMHC)的识别。此外，单细胞测序提供的多模态功能还允许包括T细胞靶向肽- mhc葡聚糖，使抗原特异性T细胞、其TCR序列和功能表型的识别成为可能。这些信息不仅对阐明免疫介导疾病的免疫病理至关重要，而且可以用来确定潜在的免疫治疗靶点或帮助指导临床试验中的免疫监测。

单细胞RNA和TCR测序的结合比传统(bulk)技术提供了多种好处。在本文中，我们将概述其中的几个好处。此外，我们的目标是将研究bulk TCR测序数据或bulk RNA-seq数据的实验或计算免疫学家引入常见的高分辨率和无偏多模态单细胞工作流程，从而能够产生新的生物学相关见解。由于TCR转录本靶向富集和TCR转录组单细胞测序的新兴应用，大量不同的工具被开发用于该数据的下游分析，试图整合基因表达和克隆型信息。本综述的最终目的是概述目前最先进的方法和软件工具，用于整合和下游分析单细胞TCR和单细胞基因表达数据。虽然这篇综述将主要关注T细胞及其受体的分析，但许多讨论的方法和技术也适用于B细胞。
为了向读者全面介绍配对单细胞RNA和TCR测序的好处，我们将首先概述未配对单细胞RNA测序和TCR库分析的传统工作流程。接下来，我们将讨论集成这两层信息的优点，以及支持这种集成的可用工具。最后，我们确定了当前TCR库分析领域面临的挑战，并就如何弥补该领域的研究空白提供了新的视角。

2. 单细胞RNAseq的一般流程

2.1 单细胞RNAseq的效力计算（power calculation）

效力计算是实验设计的重要组成部分。虽然bulk测序的效力计算方法可以应用于单细胞水平，但这些方法往往没有考虑到单细胞的特定特征，如数据稀疏性。有几个因素决定了单细胞测序实验的统计能力，包括测序深度(# of reads per cell)、每个样本的细胞数量和样本数量。这些因素通常受到预算限制、所选测序平台的技术限制和样品可用性的影响。虽然建议的测序深度信息通常由试剂制造商提供(例如10x Genomics)，但决定足够的样本大小和每个样本所需的细胞数量是更有挑战性的。此外，根据研究问题，可能需要其他先验知识来计算效力。例如，当试图在样本中确定一个罕见的细胞群时，可能需要预先了解该样本类型中细胞的比例，以确定需要对多少细胞进行测序才能获得足够的效力。由于研究问题需要不同的先验知识，目前已经开发出了几种不同目的的单细胞效力分析工具，如scPower、SCEED或SCOPIT。SCEED主要研究细胞类型鉴定的效力计算，而scPower则可用于差异基因表达检测和表达性状定量位点分析的效力计算。最后，SCOPIT使用一种多项分布来计算所需的细胞数，其基础是每个亚群必须测序到的最小细胞数、每个cluster对该细胞数进行抽样的期望概率以及最罕见的亚群的频率。该模型可以用作一个直观的web界面，也可以用作一个R包。

2.2 单细胞RNAseq测序数据的预处理

由单细胞平台产生的测序数据，类似于bulk测序，在进行下游分析之前需要进行一些处理。主要的预处理步骤如表1所示。虽然我们将在本节简要讨论其中的一些问题，但读者可以参考补充文本获得更详细的解释，包括支持预处理(单细胞)RNA-seq数据的流行软件工具。Luecken和Theis[39]在一篇精彩的评论中进一步解释了其中的一些步骤。此外，最近的一个基准测试表明，在预处理工具之间的选择相对不重要，在下游处理之后观察到微小的差异。尽管如此，对于使用10x Genomics平台的V(D)J分析，CellRanger是推荐的，因为它同时处理基因表达和配对TCR数据。

2.3 scRNAseq的下游分析

下游分析包括聚类和细胞注释，差异细胞类型组成分析，差异基因表达和功能富集，轨迹分析。还包括，基因调控网络的识别或细胞-细胞通信的推断等（本文没有列出）。

2.3.1 聚类和注释

像t-SNE，UMAP这一类非线性降维技术能够将细胞按照基因表达的相似性聚在一起。由这些算法创建的低维嵌入可以用于根据相似性分数或距离度量来识别不同的细胞群。为了实现这一点，经典的机器学习聚类技术或基于图的算法(community detection)可以分别应用于距离矩阵(例如k-means聚类)或graph-based。Louvain社区检测算法是目前最流行的graph-based的方法，具有很好的计算性能。对Louvain算法的一些改进已经提出，有助于提高模块化、速度和可伸缩性。这些改进包括smart local move、fast local move和random neighbor move算法。最近，Leiden算法通过整合这些早期的改进，作为Louvain社区检测算法的扩展而被引入。

有了cluster之后就可以对cluster进行注释了，一般有手动注释和自动注释，手动注释需要基于一定专业能力，比如知道marker基因。自动注释，比如像SingleR这一类，自动注释这一块还具有很大的挑战，免疫细胞是出了名的异质性。一点点的表达量不同就能引起不同的细胞注释。所以这里还需要改进。然而，还是自动注释和手动注释双管齐下才更有效。

2.3.2 差异细胞类型组成分析

差异细胞类型组成分析包括特定细胞类型的比例，各条件下的细胞总数，已知一些致病生物体或疾病会影响某些细胞类型的丰度。例如，CD4+ T细胞缺失是艾滋病毒感染的一个标志。因此，在没有先验知识的情况下，细胞类型组成分析可以作为确定特定疾病中受影响细胞类型的粗略方法。然而，样品的组成严重依赖于制备方案，这可能会混淆成分分析。例如，在文库制备过程中，某些细胞可能更容易受到压力和损伤，可能导致比例失衡，因为这些细胞可能会在样品中殆尽。

有一个例子，研究人员用成分分析来研究免疫系统对SARS-CoV-2感染的反应。根据观察到COVID-19患者经历由炎症单核细胞和病原性T细胞诱导的细胞因子风暴，使用成分分析表明，在重症患者中增殖T细胞和CD14+单核细胞明显富集。

2.3.3 差异基因表达和功能富集

尽管差异基因表达分析和功能富集长期以来一直被用于bulk基因表达谱分析，单细胞环境提供了几个优势。与bulk基因表达谱相比，单细胞数据由每个单个细胞的基因表达谱组成，具有更大的分辨率。此外，对于每个特定的细胞cluster，可以计算出表达某种基因的细胞比例。在单细胞差异基因表达测试的背景下，使用传统的bulk方法和专门为单细胞数据开发的方法。常用的方法包括非参数Wilcoxon检验、伪体积法DESeq2和edgeR以及单细胞法MAST等。在最近的一篇论文中，Bassez等人引入了在扩展T细胞和非扩展T细胞上应用差异表达测试的概念，以说明扩展T细胞在抗pd1治疗前是具有肿瘤反应性的，表现出较高的激活、效应物和免疫检查点标志物的表达。在另一个例子中，Zhang等人应用差异基因表达分析来识别结直肠肿瘤样本中不同T细胞类型的转录谱的差异。

差异基因表达分析的结果通常是得到一堆差异表达基因，这些基因需要额外的生物学知识去解释。所以通常情况下就需要通路分析。在这里，注释基因根据生物特征被分组到特定的集合中，计算算法检验任何集合是否在差异基因列表中富集(过/欠表达分析)或在排序的对数倍变化列表中富集(基因集富集分析)(图1E)。这些方法依赖于注释基因集的数据库进行测试，如分子标记数据库(MSigDB)、Reactome或Gene Ontology(GO)。

2.3.4. Trajectory analysis

scRNA-seq提供了细胞在特定时间点的静态快照。然而，其中一些细胞会参与一个动态过程，如细胞分化、细胞周期或生物功能的逐渐变化。因此，仅用细胞类型标签标注的cluster不能完全捕获cluster的异质性，因为它们可能包含沿着特定动态过程轨迹的不同阶段的混合细胞。通过轨迹分析，细胞根据转录相似性沿着路径或轨迹排列(图1D)。

推断出的伪时间变量表示沿着这条轨迹的进程，从指定为root细胞的特定细胞类型开始。因此，轨迹分析能够解释不同的动态过程，并识别负责沿着轨迹分支的基因表达谱。沿着轨迹的差异基因表达也是可能的。允许轨迹分析的流行方法包括Monocle和Slingshot。轨迹分析可以结合RNA velocity来量化细胞在不同状态之间转换的速度。在T细胞中，结合RNA velocity和细胞轨迹可能有助于解开T细胞反应的动力学，并揭示克隆型之间的表型转变。方法的选择通常取决于数据集和轨迹拓扑结构，建议感兴趣的读者遵循Saelens等人提出的方法选择指南。一项针对超级百岁老人的非常独特的单细胞转录组分析研究使用轨迹分析证明，与健康捐赠者的T细胞相比，这些超级百岁老人的T细胞更具有终末分化(terminally differentiated)。

3. TCRseq 分析流程

TCR repertoire是克隆型的集合，构成了个体的T细胞全部。TCR repertoire可以通过靶向富集策略或RNA-seq reads的计算重建来得到。与基因表达谱类似，TCR测序数据在下游分析之前也需要一些处理。简而言之，首先将原始测序reads与V、D和J基因序列的参考集比对，然后将相同的序列组合成单个克隆型。随后剔除质量较差的reads，修正PCR和测序错误，得到定量克隆型信息。有大量的工具可以用于处理bulk实验中的TCR测序reads，其中MiXCR仍然是最受欢迎的选择。这些方法之间的区别，他们的优点和缺点已被广泛讨论。

近年来，TCR repertoire数据的后处理以揭示生物学相关的洞见受到了越来越多的关注。这些分析大致可以分为三个主要部分:repertoire多样性分析、特异性分析和克隆组成分析。已经开发了各种方法来分析技术审查汇编的每一个方面，表2总结了这些方面。另外，图2提供了本节讨论的不同技术的概述。对于表2中列出的每一种方法，在本文的补充材料中都可以找到详细的描述。研究人员已经开发了几个软件工具，涵盖了表2中讨论的大部分功能。这样就可以计算保留库的统计数据，如多样性(图2A)、克隆组成或基因使用(图2C)。一些工具为比较不同的基因库提供了额外的功能，例如通过克隆重叠的量化(图2C)。最后，还有一些更具体的工具可以用于TCR repertoire数据的高级分析，如网络分析(图2H)、克隆型聚类、富集分析或表位特异性预测(图2G)。

3.1 基本分析(Basic repertoire analysis)

有大量的软件工具可以用来对TCR repertoire进行探索性分析。imcantation Portal1承载了一系列不同的Python和R软件包，利用一个生态系统来对TCR-seq数据进行端到端的分析，从绘制原始测序read到高级分析(例如克隆型的聚类)。此外，imcantation框架被认证为符合适应性免疫受体库(AIRR)软件工具的标准2指南。另一个软件包，immunarch，提供了一套广泛的TCR数据分析工具，包括克隆型丰度的定量、保留库多样性、保留库重叠、基因使用估计、克隆型跟踪、CDR3谱型、k-mer分布的计算和克隆型注释，数据库信息来自VDJdb、McPAS-TCR和TBAdb (PIRD)。最后，另一个流行的包是VDJtools。这个命令行工具提供了类似于imcantation和immunarch的功能。VDJtools集成了一个TCR邻域富集测试(TCRNET)，可以用来在单个repertoire中识别富集克隆型，与背景分布相比。

3.2 概率生成(Generation probability)

免疫信息学领域最关键的进展之一是V(D)J重组过程的概率模型的发展。众所周知，这是一个随机过程，有利于生成特定的TCR序列构象。这些模型提供了将生成概率(Pgen)分配给任何特定的TCR序列的机会。该 Pgen是通过建模选择V、J或D基因(在TRB的情况下)的概率，以及这些基因片段连接处潜在的核苷酸插入和缺失来计算的。该值表明特定的TCR序列是罕见的还是常见的。例如，由于插入的数量较多，较长的TCR序列往往具有较低的 Pgen(即它们更罕见)。此外，V(D)J重排的概率模型允许生成模拟健康个体TCR的大型合成库。基于这一概念，Pogorelyy等人开发了一种类似于TCRNET的方法ALICE，可以使用合成的repertoire作为背景分布，从单个repertoire快照中识别丰富的克隆。

3.3 受体特异性(Receptor specificity)

了解哪些tcr针对哪些表位是TCR分析中最重要的挑战。这使得鉴定负责中和病原体的T细胞成为可能。因此，这一知识有助于我们理解为什么某些人可能容易感染或癌症，而另一些人能够产生有效的免疫反应。在自身免疫性疾病的背景下，识别靶向自身抗原的tcr可以利用潜在的治疗靶点。正如所指出的，immunoarch和VDJtools使用实验验证的TCR表位相互作用或关联数据库(如VDJdb、McPAS-TCR和IEDB)，提供了表位特异性注释克隆型的功能。TCRex等其他工具基于表位特异性机器学习模型，预测任何TCR对有限数量的表位的特异性。对于这种应用，TCR序列通常被转换成数字编码。流行的编码类型包括使用物理化学性质或one-hot-encoding.。最近的DeepTCR为生成TCR序列的数值表示提供了一个深度学习框架，可用于下游机器学习应用，如预测TCR表位特异性。immuneML平台还提供使用各种编码训练和评估受体级别机器学习分类器的功能。ImmuneML提供了K-Nearest neighbors (KNN)、logistic回归、随机森林、TCRDist分类器等模型。

4.【联合分析】生成配对的基因表达数据和TCR数据

4.1 VDJ位点的靶向富集

结合单细胞转录组学和适应性免疫分析数据通常通过靶向富集V(D)J区与基因表达分析相结合获得。扩增TCR基因座可采用三种主要策略。第一种涉及多重PCR扩增，使用一组针对所有V和J基因片段的引物。或者，V(D)J序列可以通过标记tcr特异性寡核苷酸来纯化。这些诱饵将退火到目标区域，因此，一旦样本被碎片化，就很容易捕获。最后，最流行的cDNA样本V(D)J扩增方法是5 RACE策略。为了有效地对富集的V(D)J序列和其他基因表达谱进行配对，可以区分两种主要的方法。使用微流体装置的基于液滴的方法是最受欢迎的策略之一。以液滴为基础的单个细胞分离和条形码方法的商业例子有10x Genomics提供的Chromium设备，Bio- rad提供的ddSEQ设备，Dolomite Bio提供的Nadia设备，Illumina提供的inDrop设备。也有一些方法可以应用流式细胞仪在96孔或384孔板上进行细胞分选来分离单个细胞。然而，这种方法限制了每口井每次作业只能分析一个细胞。该方法的一个商业实例是Fluidigm公司的C1单细胞自动准备系统。本文综述了配对测序文库制备方法和测序策略。然而，一般来说，这些测序方案的不同之处在于扩增的方法。

4.2 TCR测序的计算重组

除了有针对性的富集，还可以使用计算方法从scRNA-seq数据重建TCRs。与有针对性的方法相比，计算重建方法提供了较低的TCR序列覆盖率，但允许重新分析现有的scRNA-seq数据集，可能提供额外的见解。此外，传统的免疫分析试剂盒通常只包含α/β扩增引物，导致γδ tcr回收率极低。然而，从基因表达谱重建γδ TCRs是可能的，只要数据是从5'端扩增。有广泛的工具设计用于从scRNA-seq数据中恢复TCR序列，如表3所示。要获得表3中列出的每个工具的更详细的描述，我们可以参考本文的补充材料。

TCR重建工具通常使用基于参考和从头组装的组合，能够从转录组数据中重建相当一部分V(D)J序列。虽然与靶向扩增方法相比没有竞争力，但最近的TCR重建工具的发展表明，从scRNA-seq剖面中可以显著恢复TCR序列。例如，TRUST4软件能够从scRNA-seq数据中恢复大约70%的所有V(D)J序列。MiXCR的作者表明，从淋巴结转移样本中恢复了约3000个TRB，从脾脏分离的CD4 T细胞中恢复了约1700-3000个TRB，从中枢神经系统组织中恢复了约400-1000个TRB。然而，从scRNA-seq数据中恢复TCR的有效性高度依赖于TCR位点的测序深度和表达水平，而这在不同细胞之间可能存在很大差异。因此，这可能会在分析TCR多样性和克隆性时引入大量的偏差。总之，如果实验的目的是鉴定表3中扩展克隆或优势克隆，那么从scRNA-seq样本重建TCRs可能是可取的。

5.什么时候该选择Single cell 而不是Bulk RNAseq：single cell T Cell的特征

无论伴随基因表达谱的TCR数据是通过专门富集V(D)J区域生成的，还是从scRNA-seq数据重构而来，拥有这两层信息可以提供比传统批量技术更多的优势。表4简要比较了批量测序法和单细胞测序法的主要特点。

表4。TCR和基因表达谱的整体和单细胞方法的优缺点。1:这里的保留曲目覆盖率是指能够识别的唯一TCR序列的总数。根据实验的规模，单细胞方法可以达到与批量方法相似的覆盖范围，但这将大大增加实验的成本。2:使用批量方法可以研究各种模式(如TCR谱、基因表达谱、抗原特异性等)，但不能整合。3:一般来说，批量方法更适合大样本，主要是由于较低的成本，效率和协议的持续时间。

5.1 单细胞测序能够整合免疫受体特征和功能

虽然TCRs的bulk测序可以清晰的呈现抗原反应的广度，但它不能提供其来源T细胞的功能特征的信息。这些信息由scRNA-seq提供，可能有助于阐明与病理相关的T细胞亚群的作用机制。

当与聚类和集群注释小节中描述的细胞类型注释并行执行时，这种分析尤其有趣。这可能揭示特定细胞群的某些偏差，如不同表型亚群的过度膨胀。然而，这些分析并不局限于重叠克隆，也可能包括之前描述的对不同T细胞亚群的tcr特异性分析的应用。

图：TCR与基因表达谱研究的整合方法。A.克隆型信息，如克隆扩展，可以映射到基于基因表达的UMAP上。B.TCR特异性指标，如多样性，可以在不同细胞类型的水平上进行评估。C.评估TCR集群内克隆型的基因表达谱。D.细胞类型信息可以投射到TCR类型相似网络上，以识别细胞类型趋同或发散的克隆型簇。

反之，从基因表达谱获得的信息可以映射到TCR相似网络上(图3D)，这是现有工具在较小程度上探索的东西。这种类型的分析可能揭示出属于相同或相关细胞亚群的高度相似的克隆簇(因此可能针对相同的表位)，揭示了T细胞集在表型和克隆型水平上的扩展。

5.2 Power of multimodality: antigen-specificity profiling

新的modality已经被开发用于单细胞测序，使研究人员明确确定T细胞的抗原特异性。在这些方法中，scTCR-seq和scRNA-seq与表位负载的MHC多聚体相结合，表位特异性T细胞将与之相互作用。例如，如Zhang等人所描述的TetTCR-seq，使用pMHC四聚体来描述T细胞的抗原特异性。这就引出了第三层信息，也是非常重要的一层信息，它使T细胞功能的完整表征成为可能，提供了关于其细胞表型、受体序列和其能够识别的肽- mhc复合体的信息。例如，在癌症研究中，肿瘤特异性T细胞可以被识别，并随后用于过继T细胞治疗，通过使用装载有感兴趣的肿瘤表位的mhc -多定时器捕获它们。此外，单细胞方法允许配对α和β链。通过包括TRA和TRB的信息，这提供了额外的解决方案。相比之下，bulk方法通常只提供单链信息。

6. 在单细胞水平分析T细胞的软件包

随着在单细胞水平上研究T细胞的分析技术的出现，有必要开发工具来分析伴随这项技术革命而来的越来越多的数据。有大量的工具可以单独分析转录组学或TCR数据，但很少有人关注这两层信息的组合。最近，研究人员对开发这种旨在整合分析TCR和基因表达谱的工具表现出越来越大的兴趣。在这一章中，我们将讨论用于分析scTCR-seq数据的计算工具的现状。我们包括了所有尽我们所知的在2021年10月1日之前有相关同行评议出版物或预印文章的工具。这些工具建立在快速发展的TCR repertoire分析领域的基础上，为基于系统的T细胞免疫分析提供了一个巨大的飞跃，从而为T细胞生物学提供了更深入的机制理解。table 5 概述了本文中讨论的包所提供的不同功能。

表5.分析单细胞TCR的工具星号表示多个度量的可用性。一个星号()对应一个度量标准(例如，仅用于衡量多样性的香农指数)，而双星号(*)则反映多重多样性或克隆性度量标准的可用性。高级可视化可能包括图形表示、UMAP、circos等。Clustering列仅用于基于受体的聚类。样本的聚类包含在Repertoire重叠栏中。与GE列整合另外指示了每个工具相互作用的单细胞RNA-seq分析环境。图中的缩写：GE(gene expression),AIRR(adaptive immune receptor repertoire); B(BCR); T(TCR); Se(Seurat); Sc(Scanpy); N(native).

6.1 CoNGA

这是一个可以无偏确定基因表达和TCR库之间相关性的工具，CoNGA基于TCR序列相似性(由TCRdist测度定义)和基于基因表达数据构建相似图（similarity graph）。CoNGA是一个python包，是建立在scanpy包之上，因此它也是用AnnData对象存储整合后的基因表达和TCR序列数据。TCR之间的距离是用TCRdist计算的。

CoNGA还提供了一个graph-vs-graph和graph-vs-feature的分析，graph-vs-graph分析涉及将基因表达与TCR序列相似图关联起来，方法是通过识别在两个图中相邻基因显著重叠的克隆型。对于每个克隆型，CoNGA评估TCR和基因表达图中直接连接到该克隆型的所有组件(邻接图)。为每个克隆型分配一个score，反映观察到两个图之间的这种程度的重叠大于或等于预期的偶然重叠的概率。为了限制假阳性的数量，这个score乘以克隆型的总数。

graph-vs-feature的分析中，从两个属性的数字特征映射到互补属性的相似图，从而旨在识别score分布中有偏差的graph neighborhoods。通过将CoNGA应用于一组公开的T细胞数据集，作者鉴定了一组HOBIT+表达的T细胞，这些T细胞富含疏水残基的长cdr3。此外，他们观察到TRBV30基因片段的使用与保守的EPHB6基因的表达有很强的相关性。

6.2 mvTCR

用来自TCR的功能信息补充基因表达谱，可以更详细地了解不同T细胞亚群的行为。通常，这些数据是相互并行处理和分析的，因此阻碍了新的T细胞表型的识别。An等人开发了一种多视图变分自编码器，称为mvTCR，可在单个细胞水平上联合嵌入基因表达和TCR序列数据。

通过整合两种模式，有可能捕获在表型和功能水平上相关的T细胞群。mvTCR采用两种混合模型将转录组和TCR嵌入整合到一个联合潜在分布中。作者表明，与单独的基因表达或TCR嵌入相比，联合嵌入提高了UMAP中表位特异性cluster的分离。

因此，mvTCR生成的多模态单细胞数据嵌入可以通过集成额外的表型信息层来改进现有的预测TCR表位特异性的模型。另外，表位特异性cluster的亚群可能揭示某些T细胞亚群的表位特异性扩增。

6.3 Platypus

Platypus是一个基于R的软件，专门用于分析单细胞免疫数据。针对通过10x Genomics平台生成的数据进行了优化，但它也兼容其他基于条形码的scRNA-seq方法，如RAGE-seq或SplitSeq。Platypus利用Seurat平台整合转录组谱和V(D)J测序数据。默认情况下，使用默认的Seurat参数对基因表达数据进行scaling和归一化，尽管该软件也支持其他的归一化方法，如SCTransform或Harmony。Platypus提供了一种从Cell Ranger输出中提取V(D)J序列的方法，它包含了一系列用于预处理和计算基本repertoire统计的函数。后者包括计算每个克隆的isotype数(BCRs)、CDR3长度分布和构建序列标识。

Platypus包的一个有趣特性是它能够自动化Seurat工作流。该基因表达分析的结果可以随后与克隆型信息集成使用自定义函数。这允许用户将克隆型信息投影到通过聚类基因表达谱生成的UMAP图上。例如，visualize_clones_gene表达可用于突出显示基因表达集群内的扩展克隆。最后，Platypus通过构建序列相似网络提供了一个评估repertoire拓扑的特性。

6.4 Scirpy

Scirpy是一个构建在Scanpy工具包之上的Python库，用于在Python中分析scRNA-seq数据。数据可以直接从各种来源导入，包括Cell Ranger, TraCeR和标准化的AIRR格式。与Scanpy和CoNGA类似，Scirpy利用了AnnData格式，该格式是一个矩阵，它存储了观察和变量的一些注释信息。AnnData还可以记录一些其他非结构化注释。此外，Scirpy遵循了Scanpy的API。为了整合V(D)J和基因表达谱，Scirpy提供了将AIRR和基因表达数据合并为单个AnnData对象的功能。Scirpy提供了用于预处理和分析TCR和基因表达数据的工具。预处理过程允许每个T细胞最多有两条α和β链，将任何含有两条以上α和β链的细胞标记为潜在的doublets ，并在此过程中丢弃它们。分析工具包括计算某一组样本的克隆型丰度、克隆扩张、多样性、不平衡以及库重叠。然而，唯一可用的多样性度量是Shannon entropy。其次，该包使用igraph或networkx提供具有高序列相似性的克隆型集群的图形可视化。该软件包还提供基于成对对齐的相似性聚类，但也提供其他距离度量。

6.5 scRepertoire

scRepertoire是一个R包，用于分析Cell Ranger生成的过滤后的contigs。该软件包与Seurat和singleCelexperiment (SCE)相互作用，允许整合基因表达数据。为T细胞contigs的可视化提供了多种功能，包括丰度、长度、基因使用和克隆型共享图。scRepertoire还提供了更先进的分析类型，如克隆内稳态(不同扩展水平的可视化)或克隆比例(克隆大小的比例)。其他分析包括基于氨基酸编辑距离(两个序列之间不匹配的氨基酸数量)计算保留库重叠、样本多样性和克隆型聚类。

前面描述的功能也可以计算基因表达簇（gene expression clusters）。与Seurat的整合也可以在UMAP图上投影克隆型信息。其他高级可视化包括alluvial plots显示不同类别共享的克隆类型。最后，共享克隆型基因使用模式跨细胞类型cluster可以分析使用chord diagram。

6.6 Tessa

Tessa是一种为TCR序列生成数字嵌入(numerical embedding)并将其与T细胞的基因表达谱集成的工具。TCR的数值编码基于CDR3β区域氨基酸的Atchley因子。Tessa使用一个堆叠的自动编码器来减少数值向量的大小，同时保持其固有的结构特征。在基因表达矩阵中，只保留表达变异最高的前10%基因。然后，Tessa使用有参贝叶斯模型来确定TCR对匹配克隆的基因表达谱的影响。此外，tessa使用加权TCR嵌入将克隆聚类成代表其抗原特异性的组。该算法在TCR和基因表达矩阵相关和抗原特异性分组这两个过程之间交替进行，更新嵌入的权重，直到模型收敛。利用tessa, Zhang和同事首先表明共享相似TCR的克隆型更有可能共享相似的基因表达谱，这是由TCR和转录组谱之间的嵌入相关性确定的。此外，与不同癌症类型的肿瘤样本相比，来自健康捐赠者的PBMCs的相关性更强。这可能表明TCR对肿瘤样本中基因表达谱的影响比例较小，这可能是肿瘤微环境中高细胞和趋化因子分泌的结果，在转录上影响了T细胞。

6.7 VDJView

VDJView集成了各种R包分析scRNA (Scater, Seurat, SC3, Monocle & MAST)和V(D)J测序数据(immunarch)成一个易于使用的R Shiny web应用程序。作为输入，该软件允许3'端和5'端-生成scRNA-seq数据(10x和SmartSeq2)。此外，利用VDJPuzzle软件，可以从输入的scRNA-seq数据中直接重建TCR序列。该工具提供了各种功能来分析克隆型丰度，CDR3长度分布，V(D)J基因使用和克隆型共享。对于基因表达水平的分析，该工具包括常用的降维技术，如PCA, t-SNE和UMAP。此外，细胞聚类(监督和非监督)提供了基于基因表达值。最后，该软件提供了拟时间分析，以确定单细胞状态轨迹基于Monocle包。

7.挑战

repertoire分析技术的应用对repertoire的大小和构成有很大的影响。此外，细胞群(cell population)也可能影响识别克隆型的潜在数量，因为某些细胞类型可能比其他细胞类型更罕见。因此，研究人员必须仔细评估单细胞方法与bulk方法的选择，这取决于要回答的研究问题。深度取样方法可以捕获大量的细胞(如白细胞分离)，在单个样本中发现多达2^107种独特的克隆型。从实用的角度来看，只有使用bulk测序方法才能分析这种数量的细胞。对于单细胞实验，唯一确定的克隆型的数量通常较低。因此，当本研究的目标是表征全血样本的全部repertoire时，bulk测序方法可能更合适。然而，当对特定(亚)群的功能特征和表型感兴趣时，可以选择单细胞技术。这可能包括被分析克隆类型的数量不太相关的情况。例如，当研究某些表位特异性T细胞和它们引起的免疫反应时。

8.展望

单细胞技术为鉴定特异性αβTCR及其来源细胞的功能谱提供了新的机会。通过使用这些技术获得的信息同时提供基因表达谱、TCR序列信息和可选的其他方式(如肽特异性、表观遗传修饰、染色质可及性等)。虽然已经建立了大量的技术来单独分析这些信息，单细胞技术的使用提供了一种在单个细胞水平上集成这些信息的新方法。这给数据分析带来了巨大的挑战。

在这篇综述中，我们讨论了几个优秀的软件模块，它们提供了针对成对单细胞基因表达和TCR数据的整合分析工具。尽管这些软件包为探索和分析基因表达和TCR谱提供了一个全面的工具包，但仍存在一些问题。scTCRseq允许链配对，提供α链和β链的信息。虽然这被认为是一个主要的优势，但即使在单细胞测序的情况下，α链和β链的配对仍有一个未解决的问题。有时，单个细胞可能表达多种多产的α和或β链。在这种情况下，不可能知道哪个αβ对是有功能的。

人们早就知道翻译后沉默机制的存在，导致等位基因排斥。尽管如此，AIRR研究人员应该解决的一个问题是:是什么决定了tcr中的功能链配对? 此外，尽管罕见，但始终有可能只对一个TRA和一个TRB进行测序，而细胞实际上可能表达多个TRA和或TRB。此外，确定的TRA和TRB甚至可能不匹配，因为它们可能只配对其他未确定的链。因此，这就提出了一个问题:在单细胞实验中确定的αβ对是否真的是功能性重排?

另一个考虑因素是，单细胞实验中获得的基因表达和TCR数据通常使用来自scRNA-seq和TCR-seq分析领域的既定方法单独处理和分析。整合常常局限于将克隆型特征投影到基于基因表达的UMAP上。因此，我们提倡开发新的方法，将来自两个来源的信息集成到一个对等的度量中。一些方法已经采用了这一理念，包括CoNGA、mvTCR和tessa。像这样的综合方法可能揭示不同的亚群T细胞显示相似的基因表达和TCR序列特征。这样的观察结果可以用免疫原肽引起的某些T细胞亚群的扩增来解释。类似地，UMAP通常应用于基因表达矩阵，以投射基于一组高度可变基因的不同细胞亚群。

很少有人关注将UMAP应用于基因表达和TCR特征的结合。这种方法可能揭示不同的表位特异性细胞集群，不能从基因表达或TCR谱特征单独识别。An等人提出了这一想法，他们开发了一种变分自动编码器mvTCR，用于生成基因表达和TCR序列信息的联合嵌入，从而改善了UMAP中表位特异性簇的分离。
scTCR-seq的另一个主要挑战是可视化方法改进的开发。目前，可视化scRNAseq数据最常用的方法是UMAP。UMAP可以用附加的信息层进行注释，例如克隆扩展等。对于TCR序列，相似度网络表示是最常用的可视化方法之一。虽然这种呈现方式提供了repertoire架构的总体概况，并强调了克隆扩展，但当节点数量非常大时，网络表示就变得不可行的了，就像AIRR-seq数据经常出现的情况一样。迫切需要提取TCR网络的相关子集(例如，具有低生成概率的扩展克隆型集群)，从而实现可视化。

此外，基因表达空间的特征可以映射到克隆型相似网络。这样的网络表征能够识别具有相似表达谱的克隆型簇，潜在地表明一个细胞亚型的共同起源或优先分化。相反，观察到具有不同转录组特征的克隆型簇可能表明细胞类型之间的表型可塑性。这些可视化策略将特征从一种形态(TCR或基因表达)映射到另一种形态，但并没有真正地将两层融合在一起。因此，需要改进可视化技术，通过整合它们来捕捉基因表达和TCR特征。

随着新的实验和计算方法的出现来确定T细胞的特异性，scTCR-seq结合scRNA-seq分析将是一个必不可少的工具，以充分表征T细胞的完整分子谱。基于表位特异性模型，有几种方法可以准确预测任何TCR与已知表位的结合。这些通常被称为已见抗原表位(seen epitopes)。这些模型的一个主要缺点是，它们需要单个表位的足够数据，以便准确预测哪些TCRs与之结合。

此外，这些模型通常只使用β链信息进行训练，从而忽略了多样性较低的α链的潜在贡献。预测一个TCR与一个看不见的表位(unseen epitope)的结合是一个相当困难的问题。尽管如此，多项研究已经证明了使用深度神经网络解决这个问题的可能性。一个普遍的结论是，对与已知抗原表位相似的抗原表位的预测要优于截然不同的抗原表位。目前的限制之一是已知的高质量tcr表位对数量少。然而，由于TCR抗原筛选的高通量方法的引入，将有更多的数据可用，这将允许构建更准确的模型来预测任何TCR序列的特异性。最后，我们鼓励使用标准化的pipeline来处理和分析scTCR-seq数据，这将提高scTCR-seq研究的透明度和可比性。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,671评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,442评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,524评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,623评论 1赞 275
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,642评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,584评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,953评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,621评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,865评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,608评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,698评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,378评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,958评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,940评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,173评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,419评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,425评论 2赞 342