论文地址:https://arxiv.org/abs/2207.12100
摘要
人机交互识别在许多应用中都非常重要。识别交互的一个关键线索是交互的身体部位。在这项工作中,我们提出了一种新颖的交互图变换器(IGFormer)网络,通过将交互身体部位建模为图形来进行基于骨架的交互识别。更具体地说,所提出的 IGFormer 根据交互身体部位之间的语义和距离相关性构建交互图,并通过基于学习图聚合交互身体部位的信息来增强每个人的表示。此外,我们提出了一个语义分区模块,将每个人体骨骼序列转换为一个 Body-Part-Time 序列,以更好地捕获骨骼序列的空间和时间信息,用于学习图形。在三个基准数据集上进行的大量实验表明,我们的模型以显着的优势优于最先进的模型。
介绍
人机交互识别在广泛的应用中发挥着重要作用[1,26,36,31]。 例如,它可用于视觉监控,以检测“踢”和“拳”等危险事件。 它还可以用于机器人控制,以实现人机交互。 本文解决了来自骨架序列的人类交互识别[28,15]。 与 RGB 视频相比,骨架序列仅提供人体关节的 3D 坐标,这对于非常规和可变条件(例如不寻常的视点和杂乱的背景)更加稳健。
与单人动作识别相比,识别人类交互的另一个关键线索是交互人员的交互身体部位。例如,两个人的交互手对于理解“握手”交互至关重要。通常,交互中的交互身体部位表现出语义相关性和对应性。例如,在图1(a)所示的“拍照”交互中,一个人拿着相机的手和另一个人拿着“是”的手表现出很强的相关性。类似地,在图1(b)所示的“握手”中,两个人的交互手彼此对应。在这些情况下,探索交互身体部位之间的语义相关性对于交互理解至关重要。此外,对于某些交互,交互的身体部位展示了距离演变。例如,当两个人“握手”时,两个人的手逐渐靠近。测量交互人员身体部位之间的距离可以为语义相关性提供额外的有用信息,以更好地识别交互。
受上述观察和Transformer在许多领域的成功应用的启发[4,5,41,37],我们提出了一种基于Transformer的新型模型,名为Interaction Graph Transformer (IGFormer),用于从骨架序列中进行交互识别。特别是,所提出的 IGFormer 包含一个图形交互多头自我注意 (GI-MSA) 模块,该模块旨在从语义和距离级别对交互人员的关系进行建模以识别动作。更具体地说,GI-MSA 模块学习基于语义的图和基于距离的交互图来表示交互人员的身体部位之间的相互关系。基于语义的图由注意力机制以数据驱动的方式学习,以捕获交互身体部位的语义相关性。基于距离的图是通过测量身体部位对之间的距离来挖掘交互身体部位之间的距离信息来构建的。将两个交互图组合在一起,以一种细化的方式相互补充,使模型适用于对不同的交互进行建模。
为了向 IGFormer 提供骨架序列,一个直接的解决方案是将每个骨架序列转换为伪图像,并将图像划分为一系列补丁,类似于 ViT [5] 的方式。然而,这可能会破坏每个身体部位骨骼关节之间的空间关系,从而阻碍对交互身体部位进行有效建模以进行交互识别。为了解决这个问题,我们提出了一个语义分区模块(SPM),将每个主体的骨架序列转换为一种新的格式,即身体-部分-时间(BPT)序列,每个序列都是一个身体部分的表示在短时间内。 BPT 序列对身体部位的语义信息和时间动态进行编码,增强了网络对交互身体部位进行建模以进行交互识别的能力。
我们将本文的贡献总结如下:
- 我们引入了一个名为 IGFormer 的基于 Transformer 的模型,其中包含一个新的 GI-MSA 模块,用于从语义和距离级别学习交互人员的关系,以进行基于骨架的人类交互识别。
- 我们引入了语义分区模块 (SPM),将每个骨架序列转换为 BPT 序列,以增强交互式身体部位的建模。
-
我们对三个具有挑战性的数据集进行了广泛的实验,并实现了最先进的性能。
相关工作
Skeleton-based Action Recognition
传统的基于深度学习的方法将人体骨骼建模为关节坐标向量序列 [18,28,7,30,35,13] 或伪图像 [14,9,10,11,6],然后将其输入 RNN 或 CNN 以预测动作。然而,将骨架数据表示为向量序列或 2D 网格并不能完全表达相关关节之间的依赖关系,因为人体骨架自然地构造为图形。最近,基于 GCN 的方法 [12,29,23] 将人体骨骼视为一个图,其顶点是关节,边是骨骼,并在人体图上应用图卷积网络 (GCN) 来提取相关特征。这些方法比基于 RNN 和 CNN 的方法取得了更好的性能,成为基于骨架的动作识别的主流方法。然而,这些方法将每个人视为一个独立的实体,不能有效地捕捉到人类的互动。在这项工作中,我们专注于基于骨架的人类交互识别,并提出从语义和距离两个层面对人的交互关系进行建模。
Human Interaction Recognition
人机交互识别[36,31,27]是动作识别的一个子领域。与单人动作识别相比,人类交互方法不仅应该能够对每个个体的行为进行建模,还应该能够捕捉到它们之间的交互。云等人。 [34] 评估了几种几何关系身体姿势特征,包括用于交互建模的关节特征、平面特征和速度特征,并发现关节特征优于其他特征,而速度特征对噪声敏感。吉等人。 [8] 通过对属于每个人的同一身体部位的关节进行分组来描述每个身体部位的相互作用来构建小姿势。最近,佩雷斯等人。 [24] 提出了一种基于双流 LSTM 的交互关系网络,称为 LSTM-IRN,用于模拟来自同一个人的身体关节的内部关系以及来自不同人的关节的相互关系。然而,LSTM-IRN 忽略了身体部位的距离演化,这被认为是人类交互识别的重要先验知识。与上述方法不同,我们将交互人类的交互关系建模为两个交互图,分别从语义和距离级别构建,以捕捉身体部位之间的语义相关性和距离演变。
Visual Transformer
Transformer 最初在 [32] 中被提出用于机器翻译任务,此后被广泛应用于各种自然语言处理 (NLP) 任务。受 NLP 成功应用的启发,Transformer 已应用于计算机视觉,并在许多视觉任务中展示了其可扩展性和有效性。 Vision Transformer (ViT) [5] 是第一个用于图像识别的纯 Transformer 架构,与传统的卷积神经网络 (CNN) 相比,它获得了更好的性能和泛化能力。之后,具有精心设计和复杂架构的基于 Transformer 的模型已应用于各种下游视觉任务,例如对象检测 [40]、语义分割 [38] 和视频分类 [2]。在基于骨架的动作识别中,Plizzari 等人。 [25] 提出 ST-TR 通过用自注意力算子代替图卷积算子来模拟关节之间的依赖关系。与 ST-TR 不同,我们专注于人类交互建模,并提出了一种新颖的基于自我注意的 GI-MSA 模块来建模交互人身体部位之间的相关性。
Interaction Graph Transformer (TO BE DONE)
识别人类互动的一个重要线索是互动的身体部位。 在本节中,我们介绍了一个交互图转换器(IG-Former),它包含一个图交互多头自注意力(GI-MSA)模块,用于在语义和距离级别对基于骨架的交互的交互身体部位进行建模 认出。 提出的 IGFormer 还配备了语义分区模块 (SPM),旨在保留输入骨架序列中每个身体部位的语义和时间信息,以便更好地学习交互式身体部位。
所提出的 IGFormer 的整体架构如图 2 (a) 所示。 给定两个交互对象Sm的骨骼序列,Sn RT ×J×C ,其中T和J分别表示每帧的帧数和关节数,C = 3表示每个关节3D坐标的维度 ,我们首先将两个骨架输入到所提出的 SPM 中,以生成两个 Body-Part-Time (BPT) 序列 Hm、Hn,然后将其输入到交互变换器块 (ITB) 堆栈中进行交互建模。 最后,将一个全局平均池化和一个 softmax 分类器应用于最后一个 ITB 的输出以预测交互类别。
更具体地说,每个 ITB 包含三个组件,包括两个共享权重自编码 (SE) 模块、图形交互多头自注意力 (GI-MSA) 模块和两个前馈网络 (FFN)。 每个 SE 模块都是一个标准的单层 Transformer [5],旨在对每个单独骨架内的身体部位之间的交互进行建模。 SE 的两个输出被馈送到 GI-MSA 以对交互的身体部位进行建模,并为每个交互的人生成增强的表示。 最后,GI-MSA 的每个输出都被馈送到层归一化(LN),然后是 FFN。 我们在 GI-MSA 和 FFN 的输出之间添加了一个加法运算,以提高模型的表示能力。 ITB 可以表述如下:
其中 Hme 和 Hne 表示 SE 的输出,H^me 和 H^ne 表示 GI-MSA 模块的输出,H^mo 和 H^no 是 ITB 的输出。
第一个 ITB 中的两个 SE 模块将两个交互式主题(即 Hm 和 Hn)的 Body-Part-Time (BPT) 表示作为输入。 下一个 ITB 中 SE 的输入是前一个 ITB 的输出。 在以下小节中,我们将详细介绍提议的 SPM 和 GI-MSA。
Semantic Partition Module
与可以直接分成补丁序列以馈送到 Transformer [5] 的自然 2D 图像不同,人体骨骼序列表示为一组 3D 关节。 将 3D 骨架序列转换为 2D 伪图像并通过视觉转换器(如 ViT [5])可能会导致失去帧之间的时间依赖性以及关节之间的相关性。 为了更好地保留骨架序列的空间和时间信息,我们提出 SPM 将每个主体的骨架序列转换为 BPT 序列。 BPT 中的每个元素都是一个身体部位在短时间内的表示。 所提出的 SPM 的整体架构如图 3 所示。SPM 中有三个主要步骤,即分区、调整大小和投影,下面将对此进行解释。
分区。给定交互人物 Sm, Sn 的骨架序列
RT ×J×C ,我们首先将每个骨架序列划分为 B=5 个身体部位,即左
手臂,右臂,左腿,右腿和躯干,根据人体的自然结构。在划分操作之后,每个主体的每个身体部位表示为 Sm,p, Sn,p RT ×Jp×C ,其中 p B 和 Jp 是
身体部位的关节数 p。
调整大小。不同的身体部位可能有不同数量的关节。为了使这些身体部位适应 Transformer 的输入,我们采用线性插值将所有身体部位的空间维度 Jp 调整为相同
尺寸 P ,即 Sm,p, Sn,p RT ×Jp×C Sm,p, Sn,p RT ×P×C ,其中 p B。
调整大小操作后,所有 B 身体部位都具有相同的尺寸。
投影。投影操作旨在将每个人调整大小的身体部位转换为 BPT 序列以馈送到 Transformer。具体来说,我们在 Sm,p 和 Sn,p 上应用内核大小为 P P 的 2D 卷积来生成
分别为 2D 特征图。每个输出特征图的大小为 L D,
其中 L = (T + 2 padding P + 1)/stride 和 D 表示输出通道的数量。 “填充”和“步幅”表示卷积滤波器的填充大小和步幅。然后可以将每个 2D 特征图拆分为 L 个步骤的序列,其中每个步骤是一个维度为 D 的特征向量。投影可以表示如下:
其中 em,p,j, en,p,j RD 分别表示交互人员 m 和 n 在时间步 j 处身体部分 p 的嵌入。 j [1, , L], D 是嵌入的维度。 L 是每个身体部位的时间步数。投影后,我们将所有 B 个身体部位的嵌入逐步连接到所有 L 个时间步,以生成一个具有 M = B L 个时间步的序列。该序列称为 BPT 序列。如图 3 所示,BPT 序列可以看作是 L 个子序列的组合,每个子序列由 B 个身体部位的特征组成。我们表示从两个交互人员的骨架序列生成的 BPT 序列为 Hm,Hn RM×D。向 Hm 和 Hn 添加了可学习的位置编码 [5]形成两个共享权重自编码 (SE) 模块的输入,它们是标准的一层变压器[5]。 SE的输出序列表示为Hme,Hne RM×D,然后将其馈送到图交互多头自注意力(GI-MSA)模块以对交互的身体部位进行建模并生成每个交互式主题的增强表示。
Graph Interaction Multi-head Self-Attention
为了准确识别人类交互,一个关键提示是交互的身体部位。考虑到交互式身体部位可能存在的语义对应和距离特性,我们提出了一个图形交互多头自注意力(GI-MSA)模块,将交互式身体部位建模为两个交互图,如图所示在图 2 (b) 中。具体来说,GI-MSA 包含一个基于语义的密集交互图(SDIG)和一个基于距离的稀疏交互图(DSIG)。 SDIG 是通过以数据驱动的方式探索交互身体部位的语义相关性来学习的,而 DSIG 是基于先验知识构建的,即交互人的物理上接近的身体部位通常是交互身体部位,应该是连接的。使用 SDIG 和 DSIG,所提出的 GI-MSA 从语义和距离空间对人类的交互关系进行建模,以捕获关键的交互信息。最后,通过聚合来自其他人的交互特征来增强每个人的表示。
- 基于语义的密集交互图为了捕捉人的交互身体部位之间的语义相关性(例如,一个人拿着相机的手和另一个人在“拍照”动作中“是”的手 ),我们为每个交互的人构建了一个基于语义的密集交互图(SDIG)。
基于距离的稀疏交互图除了从语义层面对交互关系进行建模外,我们还计算了交互人员身体部位之间的距离相关性。 DSIG 是一个预定义的图,可以在数据预处理阶段构建。 DSIG 的想法是利用身体部位之间的距离来构建一个包含交互人员身体部位之间的连接信息的邻接矩阵。 更具体地说,如果交互人的两个身体部位之间的距离较小,则这两个身体部位是相连的。
基于交互的特征生成给定基于语义和距离的交互图,我们将图的交互信息与交互人的个体特征聚合,以生成增强的表示,以更好地识别交互,如图 2 (b) 所示 .