【论文笔记】MLSLT: Towards Multilingual Sign Language Translation

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: MLSLT: Towards Multilingual Sign Language Translation
作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He
发表: CVPR 2022
主页: https://mlslt.github.io/

基本信息

摘要

截至目前，大部分研究集中在双语手语翻译（BSLT）。然而，此类模型在构建多语言手语翻译系统中效率低下。

为了解决这个问题，我们引入了多语言手语翻译（MSLT）任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。

随后，我们提出了MSLT的第一个模型——MLSLT，它包含两种新颖的动态路由机制，用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例，层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。

为了评估MSLT的性能，我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten（SP-10），该数据集包含多达100个语言对，例如，CSL→en，GSG→zh。实验结果表明，MSLT的平均性能在很多情况下优于基线MSLT模型和多个BSLT模型的组合。

此外，我们还探索了手语的零样本翻译，并发现我们的模型在某些语言对上可以达到与监督BSLT模型相当的性能。数据集和更多详细信息请访问https://mlslt.github.io/。

主要贡献

我们贡献了一个大规模的多语言手语理解数据集，适用于多种任务，如多语言手语翻译、多语言文本到视频手语生成和多语言视频到视频手语翻译。
我们是第一个探索MSLT问题的人，并提出了一种基于动态神经网络的MSLT框架，即MLSLT。我们使用了两种新颖的动态路由机制来控制不同手语之间的参数共享。
广泛的实验结果表明，我们提出的单模型在参数使用较少的情况下，性能优于MSLT基线模型和多个BSLT模型。一系列新的基线结果可以指导该领域的未来研究。

一个示例，用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性

一个示例，用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性。

方法

模型框架

Sign Embedding: EfficientNet
Word Embedding: MultiBPEmb

Embedding

$f_t = CNN(N_t)(W_1) + b_1$

$w_m = Emb(y_m)(W_2) + b_2$

IntraLSR

$\begin{align*} h^s &= f(e^l)W^s, h^u = f(e^l)W^u \\ h &= g_u(e^l)h^u + (1-g_u(e^l))h^s \\ e^{l+1} &= LayerNorm(h+e^l) \end{align*}$

$g_u(\cdot)$ 表示每个语言独有的门控单元，由以下公式得到：

$g_u(e^l) = \sigma((relu(e^lW_3+b_3)+e^l)W_4+b_4)$

InterLSR

一个示例来说明具有InterLSR模块的模型与传统模型之间的差异

$\begin{align*} \alpha &= \sigma(E_{lang} W_5 + b_5) \\ z^{l+1} &= LN(\alpha z^l + (1-\alpha)o^{l+1}) \end{align*}$

$E_{lang}$ 表示语言嵌入向量。

训练

NVIDIA RTX 2080ti GPU × 1

损失函数

带 label smoothing 的交叉熵损失：

$\begin{align*} \hat{y}_m &= y_m(1-\epsilon) + \frac{\epsilon}{K} \\ \mathcal{L}_{ce} &= -\sum_{m=1}^M \hat{y}_m log(P(y_m|y_{1:m-1},V;\theta)) \end{align*}$