【对抗性攻击下的AI认知流形裂缝

2025/2/25 14:40:55 来源：https://blog.csdn.net/weixin_42619619/article/details/140469651 浏览: 次关键词：【对抗性攻击下的AI认知流形裂缝

对抗性攻击中的AIs·Can Go AIs be adversarially robust? - 从对抗性攻击到流形空间的整体分布与深度采样探索再到泛化本身的内涵。

日前，来自 FAR AI 和 MIT 团队在一项研究中揭示了AI在应对处理对抗性攻击方面的这一脆弱性，相关论文研究以“Can Go AIs be adversarially robust?”为题预印发表在arXiv上。
研究中预示着在围棋这一看似明确且封闭领域下AIs在鲁棒性或者对世界的泛化上仍存下很大的gap。
尽管通过对对抗性攻击采用多种防御性策略进行持续增强和改进（如论文中采用的三种策略：①位置对抗性训练；②迭代对抗性训练；③用视觉 Transformer（ViT）替代卷积神经网络的训练），但仍无法从根本上消除这种脆弱性，从这一点上或许也进一步地印证了不管是对于围棋这种确定封闭域中的复杂策略空间的深邃，还是当下LLM或各种WM在试图解决复杂而抽象的科学探索或在真实世界广袤现象中对于时空预测与行为决策下的持久幻觉与泛化问题。而这也极有可能是阻碍当下最先进LLMs在scaling law下进行漫长super alignment演进而无法在下一代模型能力上快速实现涌现突破所面临的关键挑战之一。

因此，或许数据是非常关键的一方面，当前人类大部分历史数据表征下的空间分布还远远无法达到下一阶段scaling law的准入。同时正如论文中所提及的那样：“也许通过提高对抗训练的样本效率，使被攻击方能够从有限的对抗策略中进行泛化。”- 不过talk is cheap，实现起来的复杂度与挑战可想而知..而我想这也绝对不是仅通过某种诸如Q*或其它RL思想方法就能达到以往简单粗暴下涌现，可参考GPT5的论持久战:)
记得在今年3月份我写的长篇撰文「融合RL与LLM思想，探寻世界模型以迈向AGI」中篇中曾对真实物理世界与认知空间中复杂的数据表征下流形分布现象、RL与pre-training融合下复杂空间探索的高效采样以及再到模型针对上述复杂挑战下进行的多层级泛化学习等方面进行过一定的阐释和理解，感兴趣的大伙可翻回到那篇再去体会下，希望能进一步带给大家不一样的理解，原文pathway：因限流等原因，大家可访问置顶🔝文章探索哈

#人工智能 #AGI #LLM #alphago #对抗学习 #强化学习 #围棋

【对抗性攻击下的AI认知流形裂缝

相关资讯

热文排行

最新新闻

推荐新闻

热搜词