欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 建筑 > 《EAT》论文精度:新的图像美学质量评估SOTA的论文(截止2024年10月)

《EAT》论文精度:新的图像美学质量评估SOTA的论文(截止2024年10月)

2024/10/23 23:25:07 来源:https://blog.csdn.net/my_name_is_learn/article/details/142938381  浏览:    关键词:《EAT》论文精度:新的图像美学质量评估SOTA的论文(截止2024年10月)
  1. EAT: An Enhancer for Aesthetics-Oriented Transformers论文地址
  2. Github仓库代码,107个star

该论文由中国研究机构发表于ACMMM 2023年10月份,截止现在2024年10月份,引用数<10,但是这篇论文是截止现在,图像美学质量评估任务的最先进水平SOTA

文章目录

  • 核心内容(省流版本阅读这里即可)
      • 背景信息
      • Transformer模型的问题
      • EAT的提出
      • 实验结果
      • 开源代码
  • 1. 模型效果
    • 1.1. 实验配置
      • 1.1.1. 使用什么训练测试数据集?
      • 1.1.2. 使用什么评估指标?
      • 1.1.3. 使用什么模型跟EAT对比?
      • 1.1.4. 使用什么训练策略?
    • 1.2. 四个数据集的表现
      • 1.2.1. AVA数据集,PLCC提升3.4%,78% --> 81.4%
      • 1.2.2. TAD66K数据集,PLCC提升3.6%,51% --> 54.6%
      • 1.2.3. FLICKR-AES数据集,SRCC提升3.0%,70% --> 73%
      • 1.2.4. AADB数据集,SRCC提升3.1%,60.9% --> 64%
  • 2. 研究动机
  • 3. 经典多头注意力公式
  • 3. 实现技术
    • 2.1. 增强的注意力模块是如何设计的?
    • 2.2. 网络结构总览

核心内容(省流版本阅读这里即可)

论文介绍了在图像美学评估(Image Aesthetic Assessment, IAA)任务中,Transformers模型相对于卷积神经网络(CNN)模型的局限性,并提出了一种新的解决方案——EAT(Enhancer for Aesthetics-Oriented Transformers)。

背景信息

  • 尽管Transformers在多种视觉任务中展现了强大的潜力,但在IAA任务上,目前没有任何Transformer模型能够超越最优的CNN模型。
  • IAA任务在多媒体系统中具有挑战性,因为它不仅要求模型关注图像的前景和背景,还需要模型对噪声和冗余标签具有鲁棒性。

Transformer模型的问题

  • Transformers的设计主要用于显著性检测任务,其全局和密集的注意力机制可能会忽略背景中的重要美学信息。
  • 这种机制还会增加计算成本,并可能导致在IAA任务上的收敛速度变慢。

EAT的提出

  • 为了解决上述问题,研究者们提出了EAT(Enhancer for Aesthetics-Oriented Transformers)。
  • EAT采用了一种可变形的、稀疏的且依赖于数据的注意力机制,这种机制可以学习到应该关注的位置,并通过偏移量来细化注意力。
  • EAT还通过特定的规则来指导偏移量的选择,以便在前景和背景之间实现注意力的平衡。

实验结果

  • 研究者们在四个代表性数据集上评估了EAT增强的Transformers模型:AVA、TAD66K、FLICKR-AES 和 AADB。
  • 实验结果显示,EAT增强的Transformers模型在这四个数据集上的表现优于之前的模型,并且只需要较少的训练周期。

开源代码

  • 文章提到,EAT的实现代码是可用的,这意味着其他研究者或开发者可以访问并使用这些代码来复现研究结果或进行进一步的研究。

1. 模型效果

1.1. 实验配置

1.1.1. 使用什么训练测试数据集?

我们对AVA、TAD66K、FLICKR-AES和AADB进行了模型评估,这四个数据集分别是IAA任务的公共数据集、通用主题导向的数据集、个性化的审美数据集和审美属性数据集。

AVA数据集包含大约250,000张图像,每张图像与大约250名评分者1-10的分数分布相关。为了进行公平的比较,我们采用了最常见的训练测试数据分割方法,其中235,528张图像用于训练,另外20,000张图像用于测试。

TAD66K数据集包含66,000张图片,涵盖47个流行主题,每张图片都根据专门的主题评估标准,1200多人参与1到10的评分=。我们使用官方的训练测试方式,其中52248进行训练,另外14079进行测试。

FLICKR-AES数据集由40,000张图像组成,其美学评分范围从1到5,以反映不同的图像美学水平,每个图像由5个评分者评分。我们使用官方的训练测试分割方式,173名用户评分的35263张图像作为训练集,37名用户评分的4737张图像作为测试集。

AADB数据集收集了总共由190名用户评估的10,000张图像。我们使用22名工作人员和他们的评分图像作为测试集,剩下的168名工作人员和标记图像作为训练集。

1.1.2. 使用什么评估指标?

我们采用了两个流行的评价指标,斯皮尔曼等级相关系数(SRCC)和皮尔逊线性相关系数(PLCC)。此外,我们使用SRCC/accuracy=ratio(即准确比率),而不是二值分类精度(即美学上的负样本或正样本的二值判断)来更好地评估完整性能。TAD66K数据集的度量还包括均方误差(MSE)损失。由于AVA数据集中的Ground Truth由分数分布组成,我们使用movers distance(EMD)公式来测量ground-truth和predicted distributions之间的差异,用于体现模型在AVA数据集的效果。

1.1.3. 使用什么模型跟EAT对比?

我们将EAT与AVA和TAD66K数据集上的8个最先进的(SOTA)通用IAA模型和FLICKR-AES数据集上的9个SOTA个性化IAA模型进行了比较,并选择了3种基于Transformers的方法(MaxViT、MUSIQ和ViT),并在AVA数据集上验证了性能。此外,我们在官方代码的基础上对4种shift attention Transformer方法(PSViT 、DPT 、Swin 和DAT )进行了再训练。据我们所知,目前还没有基于Transformer的方法在TAD66K数据集上验证了性能;因此,我们还重新训练了所有7种基于变压器的方法。

1.1.4. 使用什么训练策略?

我们的方法基于PyTorch,并使用Adam 优化器进行优化,我们的学习速率是固定的,没有衰减速率策略。为了训练TAD66K, AADB, and FLICKR AES数据集,我们使用了均方误差(MSE)损失。我们选择了movers distance(EMD)的损失来训练AVA。

1.2. 四个数据集的表现

1.2.1. AVA数据集,PLCC提升3.4%,78% --> 81.4%

下表是EAT在AVA数据集的性能对比:

在这里插入图片描述

表1列出了在AVA数据集上的EAT模型和其他13个模型的结果。与基于SOTA cnn的模型相比,我们的EAT在SRCC和PLCC方面取得了最好的性能,在PLCC方面的+为3.4%,在SRCC方面的+为2.8%,在Ratio(即SRCC/accuracy)方面的+为1.8%。此外,EAT实现了显著更高的训练速度,分别比最快的基于cnn和基于Transformer的模型快37.5%和58.3%

1.2.2. TAD66K数据集,PLCC提升3.6%,51% --> 54.6%

下表展示了EAT跟其它13个模型的性能对比结果:

在这里插入图片描述

表2比较了13个模型。由于该数据集的标签更加精细化,并且对每个主题都采用了不同的标签评价标准,因此学习美学特征更具挑战性。由于其灵活的注意机制和依赖于数据的方法来指定兴趣点,我们的EAT可以比其他所有方法更有效地提取不同主题对应的美学信息。我们的最佳模型在PLCC中达到+2.8%,但是训练epoch少了72.7%;相比最佳基于Transformer模型的PLCC+3.6%,在SRCC中+3.5%,训练时期-62.5%。

1.2.3. FLICKR-AES数据集,SRCC提升3.0%,70% --> 73%

在这里插入图片描述

不同个性的人可能会以不同的方式观察图像,这鼓励模型对模型的审美信息选择不同程度的关注。我们在个性化的美学数据集 FLICKR-AES上测试了我们的模型。表3显示,我们的模型达到了0.689的最佳SRCC(在100个镜头的情况下),超过了之前的最佳SRCC结果+3.0%,这意味着我们的模型可以使用更少的数据来了解更多的个人偏好。

1.2.4. AADB数据集,SRCC提升3.1%,60.9% --> 64%

在这里插入图片描述

表6给出了我们的方法与AADB数据集上的一些PIAA方法的比较。可以看出,EAT能够实现SOTA的性能,分别提高了3.1%和5.6%。这表明,我们的EAT可以推广到现实世界的用户和更小的数据集的PIAA任务。

2. 研究动机

解释几个英语短语:

  1. deformable transformers:在标准的transformer中,注意力权重是基于相对位置计算的。而在deformable transformers中,注意力权重可以根据特定的偏移量进行调整,这些偏移量是通过额外的学习得到的。这意味着在计算注意力时,模型不仅仅关注固定的相对位置,还可以根据输入的特点动态地调整注意力的位置,从而更好地适应不同类型的输入数据。
  2. Deformable Convolution:在处理图像数据时,特别是涉及到目标检测、图像分割等任务时,物体的位置、姿态和形状可能会有很大差异。传统卷积使用固定的感受野,这意味着它在每个位置都采用相同的滤波器,这可能无法很好地适应物体的变形或视角的变化。Deformable Convolution(可变形卷积)通过引入可学习的偏移量来解决这个问题。这些偏移量允许卷积核在计算时调整其采样位置。换句话说,可变形卷积允许卷积核在其标准位置之外采样信息,从而使其能够更好地适应输入数据中的变化。

一般IAA包括三种类型的任务:二元分类(美学积极或消极),回归美学评分和预测评分分布。而个性化IAA根据个人用户的偏好采用通用美学模型。CNN模型已被广泛应用于提取美学信息,并将视觉特征映射到标注的标签上。为了使模型具备一些先验知识,一种常见的做法是在ImageNet数据集上预训练cnn以获取基本信息。然而,在IAA数据集的微调过程中,检索到的基本信息通常会丢失,这使得这些模型无法充分理解美学,无法定位在有效的突出区域上。尽管如此,这些模型将注意力均匀地分配到背景区域的能力使它们能够获得更多的上下文信息,与目前仅依赖于显著区域的基于Transformer的方法相比,CNN有更加优越的性能

最近,Transformer已经被引入到IAA任务中(例如,MaxViT,MUSIQ,和ViT)。然而,与只关注显著对象的分类和识别任务不同,IAA不可避免地依赖于背景信息。不可否认,基于Transformer的模型可以关注突出的对象或语义上有意义的内容,而这些模型对没有显著特征的背景区域有轻微的响应。因此,大多数基于Transformer的方法比现有的cnn需要更长的训练时间来收敛

本文首次揭示了IAA任务中的attention bias,并增强了现有的Transformer注意机制来解决这一问题。具体来说,我们通过引导注意更新的方向和速度来平衡前景和背景之间的注意,同时利用稀疏注意机制而不是全局注意来实现较低的训练epoch和降低计算成本。

虽然deformable transformer 尚未应用于IAA任务,但它们是提高注意力效率和促进灵活适应目标区域的一个很有前途的解决方案。在deformable convolution中,基于网格的标准卷积采样位置通过位移的方法被偏移到灵活的空间位置。前人的一些工作将deformable conv与Transformer的注意机制相结合,并在许多具有挑战性的任务中取得了令人印象深刻的结果。这种deformable attention mechanism 能够从query中学习bias,然后结合reference points来转移key和value,从而将注意力转移到目标区域。

对于IAA任务,上述思想的简单实现导致了不合理和缓慢的收敛,因为从模型生成的采样点,或者是手工挑选的参考点都不带有美学信息(图1)。所以,这些点可能是不合理的,也不是必要的,而且长时间的训练是不可避免的,注意权重从手工挑选的参考点学习到有意义的位置很难,从而导致训练收敛缓慢和较差的表现。为了这个问题,我们动态地分配interesting points来控制注意力的计算复杂度。此外,我们的兴趣点偏移量是可微的,允许它们在反向传播过程中灵活地放置在适当的位置,而偏移量可以帮助修复每个训练步骤中的注意偏差。

3. 经典多头注意力公式

以特征图𝑋作为输入,获取查询𝑄、键𝐾和值𝑉,经典的多头自注意(MSA)可以计算为:

在这里插入图片描述
其中𝐷为Q和K的向量维度,𝑚为第𝑚个注意头,𝐵𝑖𝑎𝑠为偏差矩阵

3. 实现技术

在本节中,我们将展示如何加强Transformer中现有的注意机制,以减少attention bias,同时减少计算损失,提高训练速度。特别地,我们设计了带有增强策略的deformable Transformer,即EAT。在实现过程中,存在三个挑战:

1)在每个训练步骤中的注意偏差,
2)压缩训练epoch,然后降低浮动计算量,
3)设计一个模块,可以无缝集成到现有的模型建设中,而不改变网络结构。

2.1. 增强的注意力模块是如何设计的?

文章较长,放到下一篇博客里面讲述,敬请关注

2.2. 网络结构总览

文章较长,放到下一篇博客里面讲述,敬请关注

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com