作者:次元羊 时间:2024-09-14 12:05:54阅读:(5)
点击下方卡片,关注“AICV与前沿”来源:NeurIPS2022文章地址:https://arxiv.org/pdf/2211.09992.pdf项目地址:https://github.com/BeSpontaneous/AFNet-pytorch
00 | 导言现状:现有的动作识别方法通常选取几帧来表示每个视频,以避免庞大的计算量,从而限制识别性能为了解决这个问题,解决:本文提出了由两个分支组成的视频识别网络(AFNet),以利用更多的帧,但计算量更少。
其中,Ample分支对所有输入帧进行压缩计算,获取丰富的信息,并通过所提出的导航模块为Focal分支提供指导;Focal分支压缩时间大小,只聚游戏评测焦在每个卷积块的显著帧上;最后,对两个分支的结果进行自适应融合,防止信息丢失。
通过这种设计,可以在网络中引入更多的帧,同时减少计算量此外,实验证明AFNet可以使用更少的帧,同时获得更高的精度,因为中间特征的动态选择强制隐式时间建模同时证明了可以扩展到以更低的成本减少空间冗余在5个数据集上的大量实验证明了该方法的有效性和高效性。
贡献:提出了一种自适应双分支框架,使2d - cnn能够以更少的计算成本处理更多的帧通过这种设计,我们不仅防止了信息的丢失,而且加强了基本框架的表示提出了一个轻量级的导航模块,可以在每个卷积块上动态选择显著帧,可以轻松地以端到端方式进行训练。
中间特征的选择策略不仅使模型游戏评测具有很强的灵活性,因为在不同的层会选择不同的帧,而且还强制执行隐式时间建模,使AFNet能够以更少的帧获得更高的精度01 | 方法直观地说,考虑更多帧可以增强时间建模,但会导致更高的计算成本。
为了有效地实现竞争性能,我们提出AFNet包含更多帧,但明智地从中提取信息以保持较低的计算成本具体来说,我们设计了一种双分支结构,根据帧的重要性对其进行不同的处理,并以自适应的方式对特征进行处理,使方法具有很强的灵活性。
1) Architecture Design
AFNet结构如图2所示,将Ample和Focal (AF)模块设计为两个分支结构:Ample分支(顶部)以较低的分辨率和压缩的通道大小处理所有游戏评测帧的丰富特征;focal支路(底部)接受导航模块生成的充足支路的引导,只对选定的帧进行计算。
这样的设计可以方便地应用到现有的CNN结构中来构建AF模块Ample分支样本分支设计成包含所有帧,计算量低,可以指导focal分支选择显著帧,帮助focal分支集中于重要信息;2)具有focal分支的互补流,通过精心设计的融合策略防止信息丢失。
形式上,将视频样本i表示为
,其中包含T帧,
在以下各节中省略上标i。将样本支路的输入记为
,其中C表示通道大小,H×W表示空间大小。样本分支生成的特征可以写成:
其中
表示样本分支的输出,
表示一系列卷积块而focal分支的通道、高度、宽度分别记为Co、Ho、Wo将第一个卷游戏评测积块的步幅设置为2,以降低该分支的分辨率,并通过最近的插值对该分支末尾的特征进行上采样Navigation模块 所提出的Navigation模块旨在通过自适应地选择视频
中最显著的帧来引导焦点分支去哪里看。具体来说,Navigation模块使用充足分支
中的第n个卷积块的输出生成二进制时间掩码
。首先对
进行平均池化,将空间维度调整为1 × 1,然后进行卷积,将通道大小转换为2:
其中*表示卷积,W1表示1 × 1卷积的权值。之后将特
的维度从T × 2 × 1 × 1重塑为1 × (2 × T) × 1 × 1,这样就可以从通道维度对每个视频的时间关系进行建模:
其中W2表示第二次1 × 1卷积的权重,对游戏评测于每一帧t,它将生成一个二进制
,表示是否选择它。然而,直接从这样的离散分布中抽样是不可微的。在这项工作中,使用Gumbel-Softmax来解决这种不可微性。具体来说,使用Softmax生成一个归一化的分类分布:
从分布π中绘制离散样本为:
其中
从Gumbel分布中采样,
从均匀分布Unif(0,1)中采样。由于arg max不能被微分,通过Softmax对反向传播中的离散样本L进行松弛:
当温度因子τ→0时,分布
成为一个one hot向量,在训练过程中让τ从1减小到0.01Focal分支 在navigation模块的引导下,focal分支只计算选定的帧,从而减少了计算成本和冗余帧的潜在噪声该分支第n游戏评测个卷积块处的特征可以表示为。
。基于navigation模块生成的时域掩码
,为每个视频选择在二进制掩码中具有相应非零值的帧,只对这些提取的帧
进行卷积运算:
其中
是这个分支的第n个卷积块,为了进一步减少计算量将卷积的组数设置为2。在第n块进行卷积运算后,生成一个与
具有相同形状的零张量,并通过将
和
相加来填充该值2)Implicit Temporal Modeling虽然本文工作主要是为了减少视频识别中的计算,但也证明了AFNet通过动态选择中间特征中的帧来强制隐式时间建模考虑一个采用普通ResNet结构的TSN网络,每个阶段第n个卷积块的特征可以写成。
。因此,第n + 1个块的特征可以表示为:
其中
是第游戏评测n+1个卷积块和定义
为从这个块中学习到的系数。这样就可以把这个阶段
的输出写成:
同样,将ample和focal分支的特征定义为:
式中,
为由式5生成的二进制时间掩码,
为该阶段的输入。由式8可以得到这一阶段的输出为:
由于
是一个时域二值掩码,它将决定是否在每个卷积块的每一帧中计算系数
。考虑到整个阶段是由多个卷积块组成的,对focal支路的输出与二值掩模
的级数相乘将近似于软权值。这导致每个视频中学习到的逐帧权重,作者将其视为隐式时间建模。虽然没有明确地构建任何时间建模模块,但方程3中
的生成已经考虑了时间信息,因此学习到的时间权重等于在每个阶段执行隐式时间建模。3)Spatial Redundancy R游戏评测eduction
这一部分展示了本文方法与旨在解决空间冗余问题的方法是兼容的。对navigation 模块进行扩展,采用与时间掩码生成类似的步骤,生成第n个卷积块的空间逻辑,如图3所示:
其中W3表示3 × 3卷积的权值,W4表示核大小为1 × 1的卷积的权值之后,仍然使用Gumbel-Softmax从离散分布中采样以生成空间掩码Mn,并将focal分支导航到仅聚焦在所选帧的显著区域,以进一步降低成本。
4) 损失函数取每帧预测的平均值来表示对应视频的最终输出,优化目标是最小化以下函数:
第一项是输入视频v的预测P (v)与对应的one hot标签y之间的交叉熵第二项中的r表示每个小批量中选定帧的比率游戏评测,RT表示训练前设置的目标比率(RS是扩展导航模块以减少空间冗余时的目标比率)让r通过添加第二个损失项来近似RT,并通过引入平衡这两个项的因子λ来管理效率和准确性之间的权衡。
02 | 实验结果
与采样8帧的TSM相比,AFnet方法在性能上有明显的优势,因为引入了更多的帧,并且两分支结构可以保留所有帧的信息然而,AFnet计算成本比TSM小得多,因为通过这种双分支设计分配具有不同计算资源的帧,并使用所提出的导航模块自适应地跳过不重要的帧。
此外,AFNet在精度和效率上都优于许多静态方法,这些方法精心设计了它们的结构以获得更好的时间建模这可以通过导航模块抑制不重要帧的噪声和强制帧明智的注意来解释,游戏评测这有利于时间建模相对于AdaFuse和AdaFocus等其他具有竞争力的动态方法,AFnet方法在精度和计算量上都表现出明显更好的性能。
在计算成本相似的情况下,AFNet在Something-Something V1上分别比AdaFuse和AdaFocus高出3.1%和1.8%此外,AFnet在其他主干上实现了更高的精度和效率当在高效结构MobileNetV3上构建AFNet时,只需要2.3 GFLOPs的计算就可以获得与TSM相似的性能。
此外,以ResNet101为骨架的AFNet-TSM(RT=0.8)在Something-Something V1和V2上的准确率分别达到50.1%和63.游戏评测2%,进一步验证了AFnet框架的有效性和泛化能力。
在Mini-Kinetics上验证了AFnet方法,与表3中的其他有效方法相比,AFNet在精度和计算方面都表现出最好的性能。
从表4可以看出,与其他方法相比,AFnet方法以最少的计算量获得了最好的性能。点击下方卡片,关注“AICV与前沿”