HyperAD：学习弱监督音视频暴力检测在双曲空间中的方法

文章目录

速览
摘要
1. 引言
2. 相关工作
- 弱监督暴力检测
- 双曲空间中的神经网络
3. 预备知识
- 双曲几何
- 切空间（Tangent Space）
- 指数映射与对数映射（Exponential and Logarithmic Maps）
- 3.1 双曲图卷积网络（Hyperbolic Graph Convolutional Networks）
4. 方法（Method）
- 4.1 公式化表达与问题定义（Formulation and Problem Statement）
- 4.2 多模态融合（Multimodal Fusion）
- - 拼接融合（Concat Fusion）
  - 加性融合（Additive Fusion）
  - 门控融合（Gated Fusion）
  - 双线性 & 拼接（Bilinear & Concat）
  - 我们的绕行融合（Our Detour Fusion）
- 4.3 HFSG 分支（HFSG Branch）
- 4.4 HTRG 分支（HTRG Branch）
- 4.5 双曲分类器（Hyperbolic Classifier）
- 4.6 目标函数（Objective Function）
5. 实验（Experiments）
- 5.1 实现细节（Implementation Details）
- 5.2 数据集（Dataset）
- 5.3 定量结果（Quantitative Results）
- 5.4 定性结果（Qualitative Results）
- 5.5 消融实验（Ablation Studies）
6. 额外结果与分析（Additional Results and Analysis）
- 6.1 复杂度分析（Complexity Analysis）
- 6.2 训练稳定性（Training Stability）
- 6.3 不同超参数下的消融结果（Ablative Results with Different Hyper-parameters）
- 6.4 CO-SNE 和 T-SNE 可视化（CO-SNE and T-SNE Visualization）
7. 结论

Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space
arxiv’23’05, Im. Vis. Comput’24
数字媒体与艺术学院，杭州电子科技大学，中国；国防科技大学工程与技术学院，中国

速览

动机

由于特征空间的限制，传统的欧几里得神经网络在捕捉高区分度的表示时遇到了困难。

以前的多模态方法可能会受到音频信号中噪声的影响，导致模态不平衡。

方法

提出HyperAD学习在双曲空间中的片段嵌入以提高模型的区分性，并设计了新的绕行融合以提高视觉模型的重要性。

绕行融合：只给视觉特征做FC，音频特征不做任何操作，然后进行concat。
双曲特征相似性图分支：首先通过指数映射将融合特征投影到双曲空间，然后通过双曲特征相似性定义邻接矩阵，这>里还有个阈值以消除较弱的关系，然后利用双曲线性层HL进行特征变换+聚合。
双曲时间关系图分支：这里与上个分支的操作几乎一样，仅在邻接矩阵那里修改了一下，这里的邻接矩阵直接基于视>频的时间结构构建了时间关系图。
双曲分类器：因为分支的输出特征还在双曲流形上，不能直接用基于欧几里得的分类器进行分类，所以有了双曲分类>器进行分类。
目标函数：还是弱监督的MIL方法。

实验

实验只跑了XD-Violence数据集，做了很多消融实验，还有 t-SNE 可视化。

摘要

近年来，弱监督音视频暴力检测任务受到了广泛关注。该任务的目标是根据视频级标签，在多模态数据中识别暴力片段。尽管该领域取得了进展，但传统的欧几里得神经网络在捕捉高区分度的表示时遇到了困难，主要是由于特征空间的限制。为了解决这个问题，我们提出了HyperVD，一个新的框架，学习在双曲空间中的片段嵌入以提高模型的区分性。我们贡献了两个完全双曲图卷积网络分支，挖掘片段之间的特征相似性和时间关系。通过在此空间中学习片段表示，框架有效地学习了暴力片段和正常片段之间的语义差异。我们在XD-Violence基准上的广泛实验表明，我们的方法达到了85.67%的AP，显著超越了现有的最先进方法。

关键词： 弱监督学习，双曲空间，视频暴力检测

1. 引言

随着数字内容的增加和社交媒体平台的普及，自动化暴力检测在安全和监控系统、犯罪预防和内容审核等各种应用中变得越来越重要。然而，给视频中的每一帧做标注是一个耗时且昂贵的过程。为了解决这个问题，当前的方法通常利用弱监督设置将问题表述为多实例学习（MIL）任务[36, 44, 53, 47, 34, 17, 43, 4]。这些方法将视频视为一包实例（即片段或段落），并基于视频级标注预测它们的标签[35]。

遵循MIL范式，提出了许多弱监督暴力检测方法。例如，Zhu等人[55]提出了一个时序增强网络，通过注意力块学习运动感知特征，而Tian等人[36]提出了鲁棒时序特征幅度（RTFM）方法，通过时序注意力和幅度学习增强模型的鲁棒性。Li等人[21]提出了一种基于变换器的框架，并利用多序列学习来减少选择错误的概率。此外，还提出了几种多模态方法，这些方法联合学习音频和视觉表示，通过利用来自不同模态的互补信息来提高性能[44, 47, 27, 30]。例如，Wu等人[44]提出了一种基于GCN的方法，通过图学习来学习多模态表示，而Yu等人[47]提出了一种方法，通过模态感知的多实例学习来解决模态异步问题。

尽管上述方法取得了良好的结果，但这些多模态方法可能会受到音频信号中噪声的影响，导致模态不平衡。在这种情况下，听觉模态对暴力检测的贡献低于视觉模态。此外，先前的方法已经证明了使用图表示学习来检测暴力事件的有效性，通过将每个实例作为图中的节点[44, 53]，但它们仍然难以区分暴力实例和非暴力实例。

我们提出了一种新的方法，通过图表示学习来解决这些限制。根据我们的了解，所有先前的方法都在欧几里得空间中使用深度神经网络进行特征表示。然而，图状数据被证明呈现出高度非欧几里得的潜在结构[2, 46]，这对当前的欧几里得深度神经网络构成挑战。如图1所示，正常和暴力实例之间存在隐式的层次关系和显著的语义差异，这在欧几里得空间中很难区分。我们认为，直接在与数据相关的空间中学习实例表示，例如双曲流形，可以有利于模型的区分性，因为它使模型能够捕捉并区分在欧几里得空间中可能难以探索的细微语义差异。

在这里插入图片描述
图 1：直观上，暴力实例和正常实例之间存在隐含的层次关系和显著的语义差异。这些差异使用传统的欧几里得空间方法可能难以捕捉，因为这些方法可能不适合表示复杂的层次结构。

受到这些发现的启发，我们提出了一种基于洛伦兹模型[26]的HyperVD框架，用于弱监督音视频暴力检测。基于双曲几何构建该框架可以受益于双曲距离，该距离会成倍增加无关样本之间的距离，相比于相似样本之间的距离。特别地，我们的方法包括一个绕行融合模块，在融合阶段解决模态不平衡问题，然后将音视频特征的融合嵌入投影到双曲流形上。接下来，我们利用两个完全双曲图卷积网络分支来提取双曲空间中实例之间的特征相似性和时间关系。此外，我们将两个分支学习到的嵌入进行拼接，并将其输入到一个双曲分类器中进行暴力预测。为了评估我们提出的方法的有效性，我们在XD-Violence数据集上进行了实验。在弱监督下，我们的方法可以实现85.67%的AP，超过了之前最先进方法2.27%。广泛的消融实验也证明了双曲空间中实例表示学习的有效性。

总之，主要贡献如下：

我们分析了使用传统欧几里得方法学习实例表示的局限性，并提出了一种新颖的HyperVD框架，通过双曲几何有效地探索实例的语义差异，从而实现弱监督暴力检测，带来更强的区分能力。
实验结果表明，我们的框架在XD-Violence数据集上超越了最先进的方法。消融研究进一步揭示了每个提出的组件如何有助于模型的成功。

2. 相关工作

弱监督暴力检测

弱监督暴力检测旨在通过利用视频级标签识别视频中的暴力片段。自从第一篇使用深度学习方法的论文[7]发布以来，暴力检测领域取得了巨大的进展。为了消除无关信息并提高检测的准确性，MIL [24]框架在此过程中被广泛使用。大多数现有工作[31, 1, 6, 8, 28, 32, 43, 50, 51, 45]将暴力检测仅视为一个视觉任务，并且使用基于CNN的网络来编码视觉特征。Sultani等人[35]提出了一种带有稀疏性和平滑性约束的MIL排名损失，用于深度学习网络学习视频片段中的异常得分。Li等人[21]开发了一种基于Transformer[38]的多序列学习模型，以减少选择错误的概率。最近的一项研究[44]发布了一个大规模音视频暴力数据集。为了促进模态间的交互，Yu等人[47]提出了一种轻量级双流网络，并利用模态感知对比和自蒸馏来实现判别性多模态学习。为了关注正常数据的含义，Zhou等人[54]提出了一个具有不确定性调节的双记忆单元模块，用于学习正常数据的表示以及异常数据的判别特征。与先前的方法不同，我们将音视频特征的融合嵌入投影到双曲流形上，并使用完全双曲图卷积网络有效地挖掘暴力和非暴力实例之间的语义差异。

双曲空间中的神经网络

双曲空间是一种具有恒定负高斯曲率的非欧几里得空间。近年来，由于其在表示具有隐藏层次的数据方面的吸引力，双曲空间在机器学习和神经信息科学中引起了越来越多的关注[25, 33, 26, 40]。Nickel等人[25]开展了使用庞加莱球模型在双曲空间中学习表示的开创性研究。Sala等人[33]分析了这些不同模型中的嵌入大小和数值精度的权衡，Ganea等人[10]将这些方法扩展到无向图上。在此基础上，Ganea等人[11]定义了一个双曲神经网络，弥合了双曲空间与深度学习之间的鸿沟。Nickel等人[26]和Wilson等人[41]证明，使用双曲空间的洛伦兹模型相比于庞加莱球，能得到更高效且更简化的优化器。在近期的研究中[13]，基于各向同性空间的笛卡尔积，已开发出双曲神经网络。事实上，双曲空间已被很好地融入到近期先进的深度学习模型中，如递归神经网络[11]、图神经网络[22]和注意力网络[15]。基于这些深度学习范式的研究，我们探索了使用双曲神经网络在双曲空间中学习弱监督音视频暴力检测的有效性。

250318：高斯曲率是描述一个表面弯曲程度的数学量。如果一个空间的曲率是负的，意味着它是“向外弯曲”的。例如，地球表面是一个正曲率的例子（球面），而双曲空间就像一个不断向外扩展的“饿了的椭圆”或“弯曲的鞍形”。简单来说，双曲空间是一种“弯曲”得非常特殊的空间，其中每个点的曲率都是负的，并且这种弯曲在整个空间中是均匀的（恒定的）。这种空间结构特别适合用于表示具有层级关系或复杂结构的数据。

3. 预备知识

在描述我们方法的细节之前，本节将介绍双曲几何的背景知识及其建模方法，即洛伦兹模型，以及我们在本研究中采用的双曲图卷积网络。

双曲几何

双曲几何是一种具有恒定负曲率 $K$ 的非欧几里得几何。双曲几何模型已在之前的研究中得到应用，包括庞加莱球（庞加莱圆盘）模型[9]、庞加莱半平面模型[37]、克莱因模型[14]以及洛伦兹（双曲）模型[26]。我们选择洛伦兹模型作为框架基础，考虑到其指数和对数映射及距离函数的数值稳定性和计算简便性。

我们将 $\mathbb{L}_K^n = (\mathcal{L}^n, g_{\mathbf{x}}^K)$ 表示为一个具有恒定负曲率 $K$ 的 $n$ 维洛伦兹模型，其中 $\mathcal{L}^n$ 是满足以下条件的点集：

$\mathcal{L}^n := \left\{ {x} \in \mathbb{R}^{n+1} \mid \langle {x}, {x} \rangle_{\mathcal{L}} = \frac{1}{K}, x_i > 0 \right\}. \tag{1}$

洛伦兹标量积定义为：

$\langle {x}, {y} \rangle_{\mathcal{L}} := -x_0 y_0 + \sum_{i=1}^{n} x_i y_i, \tag{2}$

250318：右下角标 $\mathcal{L}$ 表示这是洛伦兹标量积而不是普通的标量积。标量积（也称为内积或点积）是向量运算中的一种基本操作，用于量化两个向量之间的相似性。
—
250318： $g_{\mathbf{x}}^K$ 表示度量张量，是用来定义双曲空间中点之间距离的工具。度量张量和洛伦兹标量积的关系为 $\langle x, y \rangle_\mathbb{L} = g^K_{\mathbf{x}}(x, y)$ ，但是要注意，度量张量就是用于计算标量积的工具，但它并不是实际的内积公式，它只是表示内积的结构或规则。在洛伦兹空间中，内积的具体形式就是公式2。

其中 $\mathcal{L}^n$ 是位于 $(n + 1)$ 维闵可夫斯基空间中的双曲面上，其原点为 $\left( \sqrt{-1/K}, 0, \dots, 0 \right)$ 。为简便起见，我们将洛伦兹模型中的点 ${x}$ 记作 $\in \mathbb{L}_K^n$ 。

切空间（Tangent Space）

切空间 $\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 在 ${x}$ 处被定义为一个 $n$ 维向量空间，用于在 ${x}$ 附近近似 $\mathbb{L}_K^n$ ：

$\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n := \left\{ \mathbf{y} \in \mathbb{R}^{n+1} \mid \langle \mathbf{y}, \mathbf{x} \rangle_{\mathcal{L}} = 0 \right\}. \tag{3}$

请注意， $\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 是 $\mathbb{R}^{n+1}$ 的欧几里得子空间。

250318： $\mathcal{T}_{\mathbf{x}}$ 是指与点 $x$ 相关的切向量。（疑问： $x$ 不是一个数值吗，为什么说是一个点？当我们提到 $x$ 时，它并不是一个数字（比如 3 或 7），而是流形中的某个具体位置。比如，在二维平面上， $x$ 可以是 $x_1, x_2)$ ，即平面上的一个点。而在更复杂的几何空间中， $x$ 就是该空间中的一个点。）
250318：切空间是一个几何概念，它描述了在某个点附近，流形（例如曲面或多维空间）的所有可能的切线方向。简单来说，切空间就是给定点附近的“所有方向”。如果你想在一个曲面上走，那么切空间就是你可以在该点开始走的所有方向。

指数映射与对数映射（Exponential and Logarithmic Maps）

双曲空间 $\mathbb{L}_K^n$ 和欧几里得子空间 $\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 之间的点映射可以通过指数映射（Exponential Map）和对数映射（Logarithmic Map） 来完成。指数映射可以将任意切向量 $\mathbf{z} \in \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 映射到 $\mathbb{L}_K^n$ ，而对数映射是一个逆映射，它将点映射回切空间。这两个映射可以表示如下：

指数映射：
$\exp_{{x}}^K (\mathbf{z}) = \cosh(\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}) \mathbf{x} + \sinh(\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}) \frac{\mathbf{z}}{\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}}, \tag{4}$

对数映射：
$\log_{\mathbf{x}}^K (\mathbf{y}) = d_{\mathbb{L}}^K (\mathbf{x}, \mathbf{y}) \frac{\mathbf{y} - K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}} }{\|\mathbf{y} - K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}} \|_{\mathcal{L}}}, \tag{5}$

其中 $\|\mathbf{z}\|_{\mathcal{L}} = \sqrt{\langle \mathbf{z}, \mathbf{z} \rangle_{\mathcal{L}}}$ 表示 $\mathbf{z}$ 的洛伦兹范数，而 $d_{\mathbb{L}}^K (\cdot, \cdot)$ 表示两个点 $\mathbf{x}, \mathbf{y} \in \mathbb{L}_K^n$ 之间的洛伦兹本征距离函数，其计算方式如下：

$d_{\mathbb{L}}^K (\mathbf{x}, \mathbf{y}) = \operatorname{arccosh} (K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}}). \tag{6}$

250318：cos和cosh的区别？cos就是余弦函数，cosh是双曲余弦函数。
250318：本质上是在局部平坦的切空间和弯曲的双曲空间之间建立联系。
250318：洛伦兹本征距离函数和洛伦兹标量积的关系？ 在洛伦兹空间中，标量积给出了两点的相对关系，这个值可以看作是两点之间的“夹角”度量。然后通过反双曲余弦函数（arccosh）将内积值转化为实际的几何距离（即洛伦兹本征距离）。

3.1 双曲图卷积网络（Hyperbolic Graph Convolutional Networks）

近年来，已有多个双曲 GCN（Hyperbolic GCN）被提出，以扩展欧几里得图卷积到双曲模型，并在多个场景下取得了良好的效果[29]。为了适应广泛使用的欧几里得神经操作（如矩阵-向量乘法）在双曲空间中的应用，现有方法主要采用混合方式执行运算，即利用对数映射（logarithmic maps）和指数映射（exponential maps）在双曲空间与切空间之间进行特征变换，并在切空间中执行神经操作。例如，在 HGCN[4] 中，设 $h_{i,K}^n \in \mathbb{H}_K^n$ 为超双曲流形 $\mathbb{H}_K^n$ 上节点 $i$ 的 $n$ 维节点特征， $N (i)$ 表示其邻居集合，邻接矩阵为 $A_{ij}$ ，权重矩阵为 $\mathbf{W}$ 。其信息传递规则包括特征变换（feature transformation）：

$h_{i,K}^{d} = \exp_0^K \left( \mathbf{W} \log_0^K \left( h_{i,K}^{n} \right) \right), \tag{7}$

以及邻域聚合（neighborhood aggregation）：

$\operatorname{Agg} (h_{i,K}^{d}) = \exp_{h_i}^K \left( \sum_{j \in N(i) \cup i} A_{ij} \log_{h_i}^K \left( h_{i,K}^{d} \right) \right), \tag{8}$

其中 $\exp_0^K(\cdot)$ 和 $\log_0^K(\cdot)$ 分别表示 $\mathbb{H}_K^n$ 上的指数映射和对数映射。然而，上述混合方法并未完全满足双曲几何要求，可能会导致图中节点特征的失真，从而削弱模型的稳定性[52, 5]。

250318： $A_{ij}$ 是邻接矩阵元素，表示节点 $i$ 和节点 $j$ 之间的连接关系。
250318：公式 8 就是对邻居信息的一个聚合，聚合的时候先把双曲特征映射为欧式特征，然后再聚合，聚合完后再映射回双曲特征（双曲特征是我自己为了方便起的名字，表示在双曲空间中的特征）。

因此，Chen et al. [5] 提出了一种基于洛伦兹模型的完全双曲神经网络，该网络通过调整洛伦兹变换（包括升速变换和旋转变换）来形式化基本的神经操作，并证明了在双曲空间原点的切空间中进行的线性变换等价于执行带有放宽约束的洛伦兹旋转。读者可以参考[5]获取更详细的推导。为了简化，他们提供了其双曲线性层（feature transformation）的更一般公式，结合了激活函数、dropout、偏置和归一化：

$\mathbf{y} = \operatorname{HL}(\mathbf{x}) = \begin{bmatrix} \sqrt{\|\phi(\mathbf{W} \mathbf{x}, \mathbf{v})\|^2 - 1/K} \\ \phi(\mathbf{W} \mathbf{x}, \mathbf{v}) \end{bmatrix}, \tag{9}$

其中， $\mathbf{x} \in \mathbb{L}_K^n$ ， $\mathbf{W} \in \mathbb{R}^{d \times (n+1)}$ ， $\mathbf{v} \in \mathbb{R}^{n+1}$ 表示洛伦兹变换中的速度（与光速之比）， $\phi$ 是操作函数：

对于 dropout，函数为 $\phi(\mathbf{W} \mathbf{x}, \mathbf{v}) = \mathbf{W} \operatorname{Dropout} (\mathbf{x})$ ；
对于激活和归一化， $\phi(\mathbf{W} \mathbf{x}, \mathbf{v}) = \frac{\lambda \sigma(\mathbf{v}^{\top} \mathbf{x} + b')}{\|\mathbf{W} h(\mathbf{x}) + b\|} (\mathbf{W} h(\mathbf{x}) + b)$ ，其中 $\sigma$ 是 sigmoid 函数， $b$ 和 $b^{'}$ 是偏置项， $\lambda > 0$ 控制缩放范围， $h$ 是激活函数。

250318：这里还是做了特征变换的事情呀。
250318：公式 9 好像少了一个除法的线，后面需要去看一下论文 [5]
250318：这里的 $\phi$ 好像是代表了激活函数、dropout、偏置和归一化，也就是说可以通过 $\operatorname{HL}(\mathbf{x})$ 来进行3中操作，不用再像之前那样先转到欧式空间计算然后再转到双曲空间了。

此外，他们提出的邻域聚合（neighborhood aggregation） 定义如下：

$\operatorname{HyperAgg} (\mathbf{y}_i) = \frac{\sum_{j=1}^{m} A_{ij} \mathbf{y}_j} {\sqrt{-K} \left\| \sum_{k=1}^{m} A_{ik} \mathbf{y}_k \right\|_{\mathcal{L}}}, \tag{10}$

其中， $m$ 是点的数量。由于非线性激活已经集成到双曲线性层中，该方法在最后一步省略了非线性激活。在我们的研究中，我们将完全双曲图卷积网络集成到框架中，以探索在双曲空间中学习实例表示的有效性。

250318：这里还是对邻居信息的一个聚合，只不过结合了曲率和洛伦兹范数。

4. 方法（Method）

在本节中，我们首先定义问题的公式化表达。然后，我们详细介绍我们提出的框架，该框架主要由四个部分组成：绕行融合（detour fusion）、双曲特征相似性图分支（hyperbolic feature similarity graph branch）、双曲时序关系图分支（hyperbolic temporal relation graph branch）和双曲分类器（hyperbolic classifier）。该框架的示意图如图 2 所示。
在这里插入图片描述
图 2：我们的 HyperVD 框架概述。我们的框架由四个部分组成：绕道融合、双曲特征相似性图分支、双曲时间关系图分支和双曲分类器。通过使用从预训练网络中提取的音频和视觉特征作为输入，我们设计了一个简单而有效的模块来融合音视频信息。然后，两个双曲图分支分别在双曲空间中通过特征相似性和时间关系学习实例表示。最后，部署了一个双曲分类器来预测每个实例的暴力分数。整个框架在弱监督的方式下共同训练，并采用多实例学习（MIL）策略进行优化。

4.1 公式化表达与问题定义（Formulation and Problem Statement）

给定一个音视频序列 $M = \{M_i^V, M_i^A\}_{i=1}^{T}$ ，其中包含 $T$ 个不重叠的多模态片段，每个片段包含 16 帧， $M_i^V$ 和 $M_i^A$ 分别表示视觉和音频片段。视频级标注 $\in \{1,0\}$ 指示该视频中是否存在暴力事件。

为了避免额外的训练开销，我们利用经过充分训练的主干网络（I3D[19] 和 VGGish[12, 18]）提取视觉特征 $X^V \in \mathbb{R}^{T \times D}$ 和音频特征 $X^A \in \mathbb{R}^{T \times d}$ ，其中 $D$ 和 $d$ 分别表示特征维度。

与先前研究[44, 47, 35, 21]类似，我们的方法采用多实例学习（MIL） 过程，以弱监督方式判断视频是否包含暴力事件（实例），仅利用视频级标签 $Y$ 进行优化。

4.2 多模态融合（Multimodal Fusion）

在本节中，我们讨论了几种常见的多模态融合方法，这些方法在早期和中期阶段用于比较实验。

拼接融合（Concat Fusion）

一种直接的方法是简单地连接两种模态的所有特征，然后通过全连接层（FC）进行融合。拼接融合方案的输出 $X$ 可表示为 $f(X^A \oplus X^V)$ ，其中 $f(\cdot)$ 是两层全连接网络（FC）， $\oplus$ 表示拼接操作。

加性融合（Additive Fusion）

我们使用逐元素加法来结合两种模态的信息，即 $X = f_a(X^A) + f_v(X^V)$ ，其中 $f_a(\cdot)$ 和 $f_v(\cdot)$ 是两个对应的全连接网络（FC），用于保持输入特征的维度一致。

门控融合（Gated Fusion）

我们研究了一种门控融合方法，该方法由 [20] 提出，允许一种模态对另一种模态进行“门控”或“关注（attend）” ，采用 sigmoid 非线性操作，即 $X = W(U X^A * V X^V)$ ，其中 $U, V, W$ 为权重矩阵。可以将这种方法视为从一个模态到另一个模态的注意力机制。

双线性 & 拼接（Bilinear & Concat）

我们利用两个线性层分别处理两种模态的输入特征，并保持它们的维度一致，然后进行拼接操作，即 $X^A \oplus V X^V$ ，其中 $U$ 和 $V$ 为权重矩阵。

我们的绕行融合（Our Detour Fusion）

设 $X^V$ 和 $X^A$ 分别表示由主干网络提取的视觉和音频特征， $X = \{ x_i \}_{i=1}^{T}$ 表示来自两种模态特征的融合。

在音视频暴力检测任务中，音频和视觉信号之间存在显著的模态不平衡，这与典型的多模态任务不同。音频信号常常受到捕获设备噪声的影响，从而降低其质量。另一方面，视觉信号往往更具信息量和可靠性，使其对暴力检测至关重要。基于这一直觉，相较于听觉模态，视觉模态在暴力检测中的贡献可能更大。因此，我们采用了一种简单高效的绕行融合（detour fusion）方法，仅将视觉特征输入到全连接（FC）层，确保视觉特征的维度与音频特征相同。然后，我们将视觉和音频特征进行拼接，以形成联合表示，记作 $f_v(X^V) \oplus X^A$ ，其中 $f_v$ 是两层全连接（FC）， $\in \mathbb{R}^{T \times 2d}$ 。

在一定程度上，这种绕行操作可以赋予视觉模态比音频模态更高的重要性。实验结果验证了我们提出的绕行融合方法的有效性，其性能优于常见的融合技术。关于其他融合方法的具体实现细节，可在附录中找到。

250319：为什么做个 FC 就更重要了？全连接层（FC）通过线性变换对输入的视觉特征进行处理，并通过激活函数添加非线性。通过这种方式，视觉特征得到了增强，使其在后续的融合中具有更强的影响力。我感觉可以简单认为做了更复杂的非线性变换，会让该特征更重要吧。

4.3 HFSG 分支（HFSG Branch）

先前的研究表明，GCN 在视频理解任务中展现了良好的性能 [39, 53, 48, 44]。在本研究中，我们利用完全双曲 GCN 通过双曲几何学习判别性表示。我们首先通过指数映射 $\exp_{\mathbf{x}}^K (\cdot)$ 将融合特征 $X$ 投影到双曲空间，得到 $\hat{X} \in \mathbb{L}_K^{T \times 2d}$ 。然后，我们通过双曲特征相似性定义邻接矩阵 $A^{\mathbb{L}} \in \mathbb{R}^{T \times T}$ ：

$A^{\mathbb{L}}_{ij} = softmax(g(\hat{x}_i, \hat{x}_j)),\tag{11}$

$g(\hat{x}_i, \hat{x}_j) = \exp(-d_{\mathbb{L}}^K (\hat{x}_i, \hat{x}_j)),\tag{12}$

其中元素 $A^{\mathbb{L}}_{ij}$ 通过洛伦兹本征距离 $d_{\mathbb{L}}^K(\cdot, \cdot)$ 衡量第 $i$ 个和第 $j$ 个片段之间的双曲特征相似性，而不是使用余弦相似度或其他欧几里得度量方式。由于邻接矩阵应为非负数，我们利用指数函数 $\exp(\cdot)$ 将相似性限制在 $(0, 1]$ 之间。

在执行 $so f t ma x$ 归一化之前，我们还采用了阈值操作，以消除较弱的关系，并加强双曲空间中更相似对之间的相关性。阈值操作定义如下：

$g(\hat{x}_i, \hat{x}_j) = \begin{cases} g(\hat{x}_i, \hat{x}_j), & g(\hat{x}_i, \hat{x}_j) > \tau \\ 0, & g(\hat{x}_i, \hat{x}_j) \leq \tau \end{cases} \tag{13}$

其中 $\tau$ 为阈值。

250319：这部分就是告诉我们是如何再双曲空间中求邻接矩阵的。

鉴于双曲嵌入 $\hat{X}$ ，我们利用双曲线性层 $\operatorname{HL}(\cdot)$ 进行特征变换（feature transformation），其中包含用于非线性激活的激活层，并随后执行邻域聚合（neighborhood aggregation），即 $\operatorname{HyperAgg}$ ，如公式 10 中所述。整体操作如下：

$\hat{x}_i^l = \frac{\sum_{j=1}^{T} A^{\mathbb{L}}_{ij} \operatorname{HL} (\hat{x}_i^{l-1})} {\sqrt{-K} \left\| \sum_{k=1}^{T} A^{\mathbb{L}}_{ik} \operatorname{HL} (\hat{x}_i^{l-1}) \right\|_{\mathcal{L}}}, \tag{14}$

其中， $\hat{x}_i^l$ 表示第 $i$ 个片段在第 $l$ 层的双曲表示。

250319：这个是把公式9和公式10放到一起的结果，顺便解释一下 $l$ 和 $l - 1$ ，因为在 GCN 中，每一层的节点特征都表示了该节点与其邻居的关系，而每一层之间的传播过程让节点能够学习到越来越丰富的信息，所以当前层会根据上一层的信息进行聚合，然后把上一层信息的聚合结果作为当前层的输出。

该分支的输出计算如下：

$\hat{X}^{\mathbb{L}} = \operatorname{Dropout}(\operatorname{LeakyReLU}(\hat{X}^{l+1})). \tag{15}$

250319： $l + 1$ 应该是表示这是最后一层。

4.4 HTRG 分支（HTRG Branch）

尽管双曲特征相似性分支可以通过测量任意两个位置的片段之间的相似性来捕获远程依赖关系，而不受其时间位置信息的影响，但时间关系在许多基于视频的任务中同样至关重要。为了解决这一问题，我们直接基于视频的时间结构构建了时间关系图，并在双曲空间中学习片段之间的时间关系。其邻接矩阵 $A^{\mathbb{T}} \in \mathbb{R}^{T \times T}$ 仅依赖于第 $i$ 个和第 $j$ 个片段的时间位置，其定义如下：

$A^{\mathbb{T}}_{ij} = \exp(-\|i - j\|^\gamma), \tag{16}$

其中， $\gamma$ 是控制时间距离范围的超参数。

同样地，我们通过 $\hat{X} = \exp_{\mathbf{x}}^K (X)$ 获得双曲嵌入，并将 $\hat{X}$ 和 $A^{\mathbb{T}}$ 输入到双曲 GCN 中，以通过公式 14 学习双曲空间中的时间关系。最终输出计算如下：

$\hat{X}^{\mathbb{T}} = \operatorname{Dropout}(\operatorname{LeakyReLU}(\hat{X}^{l+1})). \tag{17}$

250319：这里的话，即使把邻接矩阵换了一下，然后根据公式14和公式15得到公式17，几乎一摸一样的操作。
250319：这里的 $\mathbb{T}$ 应该就是一个记号表明是和这个双曲时间关系图分支的输出，而且上面那个分支的 $\mathbb{L}$ 应该也是个记号吧，不过不太确定都。

4.5 双曲分类器（Hyperbolic Classifier）

两个分支的输出嵌入仍位于双曲流形上，因此无法直接使用基于欧几里得的线性层进行分类。如图 2 所示，为了预测暴力分数 $\in \mathbb{R}^{T \times 1}$ ，我们将这些嵌入拼接并输入到双曲分类器中，其数学公式如下：

$\sigma \left( (\epsilon + \epsilon < \hat{X}^{\mathbb{L}} \oplus \hat{X}^{\mathbb{T}}, W >_{\mathcal{L}}) + b \right), \tag{18}$

其中， $\sigma$ 是 Sigmoid 函数， $W$ 为权重矩阵， $b$ 和 $\epsilon$ 分别表示偏置项和超参数。

4.6 目标函数（Objective Function）

在本研究中，暴力检测被视为在弱监督下的多实例学习（MIL） 任务。参考 [44, 35]，我们使用视频包中 $k$ 个最大预测分数的均值作为暴力分数，其中： $\left\lfloor \frac{T}{q} + 1 \right\rfloor.$ 在正样本包（positive bag）中，得分较高的 $k$ -max 预测值更有可能包含暴力事件，而负样本包（negative bag）中的 $k$ -max 预测值通常是难样本。因此，目标函数定义如下：

$L_{MIL} = \frac{1}{N} \sum_{i=1}^{N} -Y_i \log (\bar{S}), \tag{19}$

其中， $\bar{S}$ 表示视频包中 $k$ -max 预测值的均值， $Y_i$ 为二值化的视频级标注。

250319： $T$ 是片段个数，但是 $q$ 呢？ $N$ 呢？
250319：后面实现细节那里又说， $T$ 是输入特征的长度， $q = 16$ 应该是个超参数。

5. 实验（Experiments）

5.1 实现细节（Implementation Details）

特征提取（Feature Extraction）：为了公平比较，我们采用与先前方法 [36, 44, 27, 47] 相同的特征提取过程。具体来说，视觉特征使用在 Kinetics-400 数据集上预训练的 I3D 网络 [3] 提取。对于音频特征，我们采用在大型 YouTube 视频数据集上预训练的 VGGish 网络 [12, 18]。视觉特征以每秒 24 帧的采样率提取，使用窗口大小为 16 帧的滑动窗口方法。对于听觉数据，我们将每个音频录音划分为 960 毫秒的片段，并计算使用 96 × 64 频率箱的 log-mel 频谱图。这允许我们提取丰富且具有信息量的听觉特征，这些特征可以与视觉特征结合，从而增强暴力检测模型的性能。

250319：这里倒是给了一点启发，我之前还考虑有的视频帧率不一样，所以在使用帧计算时间的时候很麻烦，如果直接假设一个前提，每秒24帧，那么我就这样子强制做，应该就简单很多了吧。

HyperVD 架构和设置（HyperVD Architecture and Settings）：对于绕行融合模块，我们应用了两个 1D 卷积层，使用 LeakyReLU 激活函数和 dropout 来学习视觉特征。在双曲空间中，我们使用两个双曲图卷积层来学习时序关系。

训练细节（Training Details） ：整个网络在 NVIDIA RTX 3090 GPU 上训练了 50 个 epoch。我们设置训练期间的 batch 大小为 128，并将初始学习率设置为 5e-4，该学习率通过余弦退火调度器动态调整。对于超参数，我们设置 $\gamma = 1$ ， $\epsilon = 2$ ，并设置 dropout 比例为 0.6。我们使用 Adam 优化器，无权重衰减。对于 MIL，我们将 $k$ 的值设置为 $\left\lfloor \frac{T}{16} + 1 \right\rfloor$ ，其中 $T$ 表示输入特征的长度。

5.2 数据集（Dataset）

XD-Violence [44] 是一个最近发布的大规模音视频暴力检测数据集，包含来自真实世界的电影、网页视频、体育直播、监控摄像头和 CCTV 视频。该数据集包含 4754 部未经修剪的电影，训练集中的视频级标签和测试集中的帧级标签，视频总时长近 217 小时。参考 [44, 27, 47]，我们选择 XD-Violence 数据集作为基准，验证我们提出的多模态框架的效率。在推理过程中，我们使用平均精度（Average Precision, AP）指标进行评估，沿用了之前的工作[36, 44, 27, 47]。需要注意的是，AP 值越高，表明在数据集上的性能越好。

5.3 定量结果（Quantitative Results）

我们将提出的方法与先前的最先进方法进行了比较，包括（1）无监督方法：SVM 基线，OCSVM[34]，和 Hasan et al. [17]；（2）单模态弱监督方法：Sultani et al. [35]，Wu et al. [43] RTFM [36]，MSL [21]，S3R [42]，UR-DMU [54] 和 Zhang et al. [49]；（3）音视频弱监督方法：Wu et al. [44]，Pang et al. [27]，MACIL-SD [47]，UR-DMU [54] 和 Zhang et al. [49]。在 XD-Violence 数据集上的 AP 结果如表 1 所示。
在这里插入图片描述

在视频级标签监督下评估时，我们的方法在 AP 上超越了所有无监督方法，达到了最先进的性能，且超出了所有方法显著的差距。与之前的单模态弱监督方法相比，我们的方法提高了至少 4.01%。与最先进的弱监督多模态方法 MACIL-SD [47] 相比，我们的方法提高了 2.27%。这些结果证明了我们提出的学习实例表示的有效性，尤其是在双曲空间中的学习，并且展示了它在提升暴力检测模型性能方面的潜力。

与其他方法相比，我们的方法具有最小的模型大小（0.607M），同时仍然超越了所有先前的方法。这些结果证明了我们框架的高效性，框架利用了更简单的网络架构，同时达到了卓越的性能。对于模型复杂度和推理能力，表 5 给出了在测试集上计算的平均推理时间和 FLOPS（浮动点操作）。由于现有的计算工具包（如 fvcore）不支持某些特殊数学函数来计算 FLOPS，因此我们提供了推理时间的结果，并发现双曲几何的引入会增加一些推理成本，但模型性能的提升非常显著。
在这里插入图片描述
表5：模型复杂性和推理能力的消融实验结果。推理时间（Time）是在测试集上进行一次迭代，并进行5次预热迭代后测量的。

250319：推理时间是在进行一次完整的迭代后测量的，但为了保证测试的稳定性，进行5次“预热”（即模型在正式开始测试之前的几个迭代，以让模型达到稳定状态）来消除启动时的影响。

5.4 定性结果（Qualitative Results）

为了进一步评估我们的方法，我们首先可视化了在 XD-Violence 上的预测结果，如图 3 所示。如图中所示，对于暴力视频，我们的方法不仅生成了精确的检测区域，还生成了更高的异常分数，且高于正常视频中的分数。在非暴力视频中，我们的方法几乎没有对正常片段产生预测。
在这里插入图片描述
图3：异常分数曲线的可视化。横轴表示时间，纵轴表示异常分数。第一行包括两段包含暴力事件的视频样本，第二行则包括正常视频的样本。蓝色曲线表示视频帧的预测异常分数，红色区域表示异常事件的位置。

此外，我们提供了图 4 来展示 vanilla、欧几里得和双曲特征空间的可视化。双曲特征首先被转换到欧几里得空间进行计算，使用 t-SNE [23] 工具。结果展示了暴力和非暴力特征在双曲空间中的清晰聚类，并且经过训练后，未关联的特征之间的距离增加。值得注意的是，在双曲空间中训练的特征需要转换为欧几里得空间，然后使用 t-SNE 工具进行计算。我们还提供了针对双曲空间设计的 CO-SNE [16] 可视化工具，详见附录。
在这里插入图片描述
图4：原始特征（左）、通过欧几里得空间训练的特征（中）以及通过双曲空间训练的特征（右）的特征空间可视化。所有结果均在XD-Violence测试集上进行。红点表示非暴力特征，绿色点表示暴力特征。

5.5 消融实验（Ablation Studies）

为了探究提出的框架中关键组件的贡献，我们进一步进行了广泛的消融实验，以展示其效率。

我们首先在不同的多模态融合方式上进行比较实验，结果如表 2 所示。我们的绕行融合方法（Detour Fusion）在使用拼接（Concat）融合时的性能为 85.67%，比仅使用拼接融合提高了 2.32%。此外，Wu et al. [44] 采用了一种早期融合的拼接方式。我们使用绕行融合模块重新实现了他们的方法，并获得了 1.22% 的改进。
在这里插入图片描述

然后，我们探讨了完全双曲 GCN（FHGCN）对框架的贡献，结果如表 3 所示，揭示了与标准欧几里得空间中的 GCN 相比，从 76.87% 提升至 85.67%的显著性能提升。此外，配备 Lorentz 模型的 FHGCN 在数值稳定性上使得我们的方法能够超越使用 Poincaré 模型的 HGCN，实现了 2.79% 的改进。如表 3 所示，我们还评估了使用多种特征相似度度量的模型性能。我们的研究发现，使用 Lorentz 距离进行 Lorentz 模型的特征相似度捕捉能力优于欧几里得空间的传统方法。
在这里插入图片描述

250319：E 表示欧几里得空间（Euclidean model）；B 表示庞加莱空间（Poincaré model）；L 表示洛伦兹空间（Lorentz model）

随后，我们分析了提出的 HFSG 分支和 HTRG 分支的贡献。表 4 中的结果表明了每个分支的重要性。当两者结合时，我们的方法能够达到最佳的 85.67% AP 性能。
在这里插入图片描述

最后，在图 5 中，我们展示了预测结果，以便进行定性分析。视觉比较显示，我们的方法通过利用双曲几何，有效地减轻了暴力和非暴力片段中的预测噪声，超越了使用欧几里得几何的基线和变种方法。这证明了我们方法在捕捉之前无法区分的细微语义差异方面的卓越能力。
在这里插入图片描述

6. 额外结果与分析（Additional Results and Analysis）

6.1 复杂度分析（Complexity Analysis）

我们的方法在设计上也注重计算效率，不引入过多的参数。绕行融合模块通过全连接层学习视觉特征，并包含主要的模型参数。相比之下，HFSG 和 HTRG 分支则相对轻量，主要由在学习到的嵌入上运行的双曲图卷积层组成。与其他方法相比，我们的方法具有最小的模型大小（0.607M），同时仍超越了所有先前的方法。这些结果展示了我们框架的效率，它利用了更简单的网络架构，同时实现了更优的性能。

6.2 训练稳定性（Training Stability）

我们进一步提供了在 50 个 epoch 中的准确率曲线的比较结果，如图 7 所示。值得注意的是，在 HGCN 和 FHGCN 中，双曲特征相似度分支的相似度矩阵分别是通过 Poincaré 距离和 Lorentz 距离度量的。正如所示，基于 GCN 的方法产生了显著的抖动结果。得益于 Lorentz 模型的数值稳定性，我们的方法配备了 FHGCN，相比其他方法，在整个训练过程中更加稳定。
在这里插入图片描述

6.3 不同超参数下的消融结果（Ablative Results with Different Hyper-parameters）

如表 1、表 6 和表 7 所示，我们还提供了在方法中采用的不同超参数的消融实验结果。在表 6 中，相比欧几里得方法（如 Wu et al. [30]），该模型在小嵌入维度（32）下能够获得有前景的结果（80.46%），并保持轻量级（0.609M）和快速（2.585s）。表 7 展示了 FHGCN 隐藏维度和层数对模型性能的影响。
在这里插入图片描述
表6：我们方法中不同输入维度的双曲GCN的消融实验结果。值得注意的是，为了输入任意大小的HFSG和HTRG分支的输入维度，我们采用了连接方式进行多模态融合。推理时间（Time）是在测试集上进行一次迭代，并进行5次预热迭代后测量的。
在这里插入图片描述
表7：我们方法中不同层数和隐藏维度的双曲GCN的消融实验结果。左侧的三列是不同层数的结果，右侧的三列是不同隐藏维度的结果。

6.4 CO-SNE 和 T-SNE 可视化（CO-SNE and T-SNE Visualization）

我们应用专为双曲数据设计的 CO-SNE [16] 来可视化 vanilla 嵌入和通过双曲神经网络生成的训练嵌入。对于接近 Poincaré 球边界的高维双曲数据点，标准的 t-SNE 通常会错误地低估它们之间的距离，导致低维嵌入压缩到一个点，从而造成差的可视化 [16]。具体而言，我们采用变换函数将 Lorentz 模型的嵌入投影到 Poincaré 空间，并利用 CO-SNE 进行可视化。如图 6 所示，左侧列展示了没有训练的 vanilla 嵌入，右侧列展示了经过我们模型训练后的嵌入，我们可以观察到暴力特征和非暴力特征在训练后被很好地分开，例如，暴力特征靠近中心，而非暴力特征被推向边界。
在这里插入图片描述
图6：我们模型中高维原始嵌入和输出双曲嵌入在二维特征空间中的投影，使用CO-SNE [16]，该方法能够保留高维双曲数据点的层次结构和相似性结构。红色点表示暴力嵌入，蓝色点表示非暴力嵌入。

7. 结论

在本文中，我们研究了音视频场景下的模态不一致性和欧几里得空间中学习实例表示的不足。然后，提出了一个结合了 detour 融合模块和两个双曲图学习分支的 HyperVD 框架来解决上述问题。具体来说，我们设计了一种 detour 融合策略，以抑制音频信号的负面影响，缓解跨模态的信息不一致。此外，还提出了一个双曲特征相似性图分支和一个双曲时序关系图分支，分别用于学习片段间的相似特征和时序关系。我们的 HyperVD 在 XD-Violence 数据集上显著超越了之前的方法，展示了双曲空间中实例表示学习的优越性。

我们相信双曲几何在各种视频理解和解释任务中具有巨大的潜力，如视频异常检测和事件定位。我们致力于进一步探索双曲几何在这些以及其他相关领域中的力量。