一文了解基于ST-GCN的人体动作识别与生成

资讯 3年前

1.05K

ST-GCN: Spatial Temporal Graph Convolutional Networks时空图卷积网络,这个网络结构来源于2018年发表的一篇文章《Spatial Temporal

ST-GCN: Spatial Temporal Graph Convolutional Networks时空图卷积网络,这个网络结构来源于2018年发表的一篇文章《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》,也就是基于时空图卷积网络来做人体动作识别。

今天,我们就来了解下,如何基于ST-GCN来实现人体动作的识别与生成。

Why:为什么要使用ST-GCN?

ST-GCN网络训练好之后要达到的效果就是:用户提供一段视频,网络会输出视频中人的动作分类。

类似于上图中的视频,如何来识别视频中的人在做什么动作呢? 视频其实就是一帧一帧的图片拼接而成的,而传统处理图像识别的网络最常用的就是CNN(卷积神经网络),那ST-GCN是否跟CNN有关系呢?为什么要使用这个网络呢?

可以从以下三点来理解:

(1) 输入数据有量级的差别。举个例子,数据为一段10秒左右的视频,大概300帧,像素1920*1080,分别输入两个网络中。传统CNN是将所有视频拆分为一帧一帧的图片输入网络,而ST-GCN则直接输入人体的骨架关节数据,CNN的输入数据量约为ST-GCN的83000倍。

(2) 输入数据纯净度高,噪声少。CNN是将视频数据直接输入网络,包括了视频的背景以及图片中的各种噪音,而ST-GCN是仅仅将人体骨架关节点的信息输入网络,只保留了主要的有效信息,噪声低。

(3) 考虑了空间和时间上的相邻关节,效果更好。ST-GCN不仅考虑了空间上的相邻节点,也考虑了时间上的相邻节点,将邻域的概念扩展到了时间上,实验效果表明精度也更高。

What:ST-GCN到底是什么?

ST-GCN是TCN与GCN的结合。TCN,对时间维度的数据进行卷积操作;GCN,则对空间维度的数据进行卷积操作。GCN属于GNN,而GNN的基础是图论。神经网络处理的传统数据都是欧式距离结构的数据,比如二维的图像、一维的声音等等。而对于非欧式距离结构的数据,比如社交网络、交通运输网等等,传统的网络结构无法直接处理,而GNN就是用来处理这类型数据的。所以要了解ST-GCN,就要先从图论的一些基本理论入手,然后再延伸到GNN、GCN、ST-GCN。

2．1 图论

这里的图并不是指我们日常所见的图片,图的广泛概念包含具体的事物,以及事物之间的联系。图论中的图由两部分构成,即点和边。

点:图上具体的节点。

边:连接图上点和点之间的东西,边分为有向边和无向边。

图:节点V(G)和边E(G)构成的集合就是图,可以表示为:G = {V(G), E(G)}。图可以简单分为有向图和无向图(如下图所示)。

2．2 GNN

GNN: Group Neural Network 图神经网络,即结合图论与深度学习的网络结构。目前主要包含:Graph Convolutional Networks (GCN)、Graph Attention Networks、Graph Auto-encoder、Graph Generative Networks、Graph Spatial-Temporal Networks。最初的GNN网络,就是将点和边的特征一起传入网络中学习。

2．3 GCN

GCN:Graph Convolutional Networks 图卷积神经网络,顾名思义,是将图与卷积结合起来。根据卷积核的不同,主要分为spectral method(频谱方法)和spatial method(空间方法)。二者的区别在于:频谱方法基于拉普拉斯矩阵,与图的关系紧密联系,可泛化能力弱;空间方法则直接在图上定义卷积,对有紧密关系的节点进行操作,分为点分类和图分类。ST-GCN中的GCN属于图分类,且采用的是空间方法。

2．4 ST-GCN

ST-GCN:Spatial Temporal Graph Convolutional Networks时空图卷积网络,是在GCN的基础上提出的。核心观点是将TCN与GCN相结合,用来处理有时序关系的图结构数据。网络分为2个部分:GCN_Net与TCN_Net。

GCN_Net对输入数据进行空间卷积,即不考虑时间的因素,卷积作用于同一时序的不同点的数据。TCN_Net对数据进行时序卷积,考虑不同时序同一特征点的关系,卷积作用于不同时序同一点的数据。