欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 养生 > SGM: Sequence Generation Model for Multi-Label Classification

SGM: Sequence Generation Model for Multi-Label Classification

2025/4/28 23:49:11 来源:https://blog.csdn.net/transformer_WSZ/article/details/146126579  浏览:    关键词:SGM: Sequence Generation Model for Multi-Label Classification

为了建模多标签之间的依赖关系,本篇工作用序列生成的方式来解决该问题。

当前label的预测不仅依赖于输入上下文,也依赖于已输出的所有label。用seq2seq建模标签依赖是一种非常自然的思路,但存在如下两大问题:

  1. 序列建模强调标签的先后顺序,即位置关系,而多标签是一个集合,不存在位置约束,哪个标签在前在后没有关系,只要输出正确就行。这种情况下,ground truth该如何构造?
  2. 序列生成是自回归形式,当前label的生成依赖于上一个label,如果上一个label是错误的,那么将会严重影响后续所有label的预测。这种情况下,该减轻预测错误的label所导致的连锁反应?

SGM针对上述问题提出了如下建模思路:

模型结构

经典的序列生成范式:
p ( y ∣ x ) = ∏ i = 1 n p ( y i ∣ y 1 , y 2 , ⋯ , y i − 1 , x ) p(\boldsymbol{y} \mid \boldsymbol{x})=\prod_{i=1}^n p\left(y_i \mid y_1, y_2, \cdots, y_{i-1}, \boldsymbol{x}\right) p(yx)=i=1np(yiy1,y2,,yi1,x)

model

问题1的解法

作者根据训练集中标签出现的频次来构造标签序列:高频标签置前,低频标签置后。同时在序列头尾插入 boseos 表示序列的开始与结束。

问题2的解法

引入Global Embedding考虑所有可能label的信息,避免贪心依赖上一个label:
e ‾ = ∑ i = 1 L y t − 1 ( i ) e i g ( y t − 1 ) = ( 1 − H ) ⊙ e + H ⊙ e ‾ H = W 1 e + W 2 e ‾ \overline{\boldsymbol{e}}=\sum_{i=1}^L y_{t-1}^{(i)} \boldsymbol{e}_i \\ g\left(\boldsymbol{y}_{t-1}\right)=(\mathbf{1}-\boldsymbol{H}) \odot \boldsymbol{e}+\boldsymbol{H} \odot \overline{\boldsymbol{e}} \\ \boldsymbol{H}=\boldsymbol{W}_1 \boldsymbol{e}+\boldsymbol{W}_2 \overline{\boldsymbol{e}} e=i=1Lyt1(i)eig(yt1)=(1H)e+HeH=W1e+W2e

y t − 1 y_{t-1} yt1是在 t − 1 t-1 t1时间步预测的标签概率分布, e i e_i ei l i l_i li的embedding。本质上就是根据概率分布对所有可能标签做加权求和。 H H H则是门控机制,控制加权embedding的比例。

实验结果

exp

加上GE效果更加明显!


参考

  • SGM
  • 多标签文本分类-如何有效的利用标签之间的关系
  • 多标签分类新建模方法

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词