欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 八卦 > 【对抗性攻击下的AI认知流形裂缝

【对抗性攻击下的AI认知流形裂缝

2025/2/25 14:40:55 来源:https://blog.csdn.net/weixin_42619619/article/details/140469651  浏览:    关键词:【对抗性攻击下的AI认知流形裂缝

对抗性攻击中的AIs·Can Go AIs be adversarially robust? - 从对抗性攻击到流形空间的整体分布与深度采样探索再到泛化本身的内涵。

44251e5c277f41dc8e80c68960915b23.jpeg

d3da3f9eb5c042d3805ca12923f0ec88.jpeg

日前,来自 FAR AI 和 MIT 团队在一项研究中揭示了AI在应对处理对抗性攻击方面的这一脆弱性,相关论文研究以“Can Go AIs be adversarially robust?”为题预印发表在arXiv上。
研究中预示着在围棋这一看似明确且封闭领域下AIs在鲁棒性或者对世界的泛化上仍存下很大的gap。
尽管通过对对抗性攻击采用多种防御性策略进行持续增强和改进(如论文中采用的三种策略:①位置对抗性训练;②迭代对抗性训练;③用视觉 Transformer(ViT)替代卷积神经网络的训练),但仍无法从根本上消除这种脆弱性,从这一点上或许也进一步地印证了不管是对于围棋这种确定封闭域中的复杂策略空间的深邃,还是当下LLM或各种WM在试图解决复杂而抽象的科学探索或在真实世界广袤现象中对于时空预测与行为决策下的持久幻觉与泛化问题。而这也极有可能是阻碍当下最先进LLMs在scaling law下进行漫长super alignment演进而无法在下一代模型能力上快速实现涌现突破所面临的关键挑战之一。

c22d4813f1d844bdb8b21ef16ca416c6.jpeg
因此,或许数据是非常关键的一方面,当前人类大部分历史数据表征下的空间分布还远远无法达到下一阶段scaling law的准入。同时正如论文中所提及的那样:“也许通过提高对抗训练的样本效率,使被攻击方能够从有限的对抗策略中进行泛化。”- 不过talk is cheap,实现起来的复杂度与挑战可想而知..而我想这也绝对不是仅通过某种诸如Q*或其它RL思想方法就能达到以往简单粗暴下涌现,可参考GPT5的论持久战:)
记得在今年3月份我写的长篇撰文「融合RL与LLM思想,探寻世界模型以迈向AGI」中篇中曾对真实物理世界与认知空间中复杂的数据表征下流形分布现象、RL与pre-training融合下复杂空间探索的高效采样以及再到模型针对上述复杂挑战下进行的多层级泛化学习等方面进行过一定的阐释和理解,感兴趣的大伙可翻回到那篇再去体会下,希望能进一步带给大家不一样的理解,原文pathway:因限流等原因,大家可访问置顶🔝文章探索哈

a28b2dec87f748a49c99fb2d258bd952.jpeg
#人工智能 #AGI #LLM #alphago #对抗学习 #强化学习 #围棋

 

 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词