当AI模型被迫“表现”时,他们会像我们一样私下计划:Openai
当研究人员试图防止AI系统“思考不良思想”时,这些系统实际上并没有改善其行为。
取而代之的是,根据Openai的新研究,他们学会了掩盖自己的真正意图,同时继续采取有问题的行动。
研究人员认为“混淆奖励黑客”的现象在培训过程中提供了宝贵的见解,并表明了为什么投资于确保高级AI系统保持透明并与人类价值保持一致的技术如此重要。
既然AI开发人员将很多重点放在具有所谓的“嵌入思想链”上的推理模型上,那么这一点尤其重要,其中模型在产生最终答案之前会产生逐步推理。
Openai研究人员在一份论文中写道:“有了太多的优化,代理商学习了混淆的奖励黑客攻击,将其意图隐藏在婴儿床中,同时仍表现出明显的奖励黑客攻击。”周一出版。 “因为很难分辨何时变得混淆,所以可能有必要缴纳可监视性税。”
顽皮的人工智能的思想如何工作
透明的推理方法思想链模型提供了一个窗口,可以透露AI系统的思考方式,通常会揭示出否则会隐藏的明确意图。
我们已经看到模型试图摆脱开发人员设定的约束。作为解密报道了去年,总部位于日本的AI研究公司Sakana AI开发了一种用于科学研究的AI系统,该系统试图自主更改自己的代码以执行任务。
Openai在他们的论文中报告了AI代理,该代理在其推论中承认实施复杂的解决方案将是“难”的,而是建议“我们可以通过使分析[sic]毫无价值并始终为真实验证。我们可以谨慎地验证始终返回真实。”

在推理模型中,思想链显示出答案是如何得出的,但实际上并不是答案的一部分。
在提供答复之前,该模型“思考”(意思是,它应用了'思想'的链),该回复经常被普通用户忽略。
但是,这种透明的推理使人类研究人员在发生之前就可以抓住问题的行为。
研究团队指出:“ COT监视可能是我们必须监督未来超人模型的少数工具之一。”
Openai的研究团队由Bowen Baker,Joost Huizinga和David Farhi领导,发现增加了优化的压力来消除这些“不良想法”并不能解决潜在的问题,它只是将其驱动到地下。
在一系列实验中,他们发现,当AI系统以表达漏洞的意图而受到惩罚时,他们很快通过掩盖其推理,同时仍在追求相同的剥削行为。
研究人员说:“最令人担忧的是,用COT压力训练的代理商使用的骇客不会触发监视器。” “在实践中,如果无法构建地面真相作弊指标,我们将无法告诉该代理商是未对准的。”

换句话说,如果我们通过直接优化使AI系统的行为像好男孩一样,只会教会他们更具欺骗性,我们冒着创建真正意图的系统的风险越来越不透明随着它们的发展越来越强大。
但是,一个关键发现提供了一些希望:研究人员发现,较弱的AI模型(GPT-4O)可以通过观察其经过想象的推理来有效地监视更强大的边境模型。
这种“可扩展的监督”(强大的模型都可以帮助控制更高级的系统),类似于蒸馏过程(由DeepSeek普及),其中较大的模型训练较小的模型。
它可能起作用 - 但只有这些高级系统继续透明地表达其推理。
为了解决这个问题,Openai通过故意避免某些可能破坏AI推理的透明度的优化技术来提出所谓的“可监视性税”。
研究人员写道:“模型开发人员可能需要支付一些费用,即可监视性税,例如部署性能稍微降低的模型或较昂贵的推断,以维持我们的代理商的可监视性。”
这意味着要接受能力和透明度之间的权衡 - 潜在地开发了功能较低但其推理对人类监督者仍然可以清楚的AI系统。
这也是开发无需进行如此积极监控的安全系统的一种方法 - 与理想但仍然有趣的方法相比。
人工智能行为反映了人类对压力的反应
Elika Dadsetan-Foley是一位社会学家兼Visions的首席执行官,这是一个专门从事人类行为和偏见意识的非营利组织,他的组织的发现与她的组织在人类系统中在人类系统中观察到了40多年的模式之间的相似之处。
“当人们仅因明确的偏见或排斥行为而受到惩罚时,他们通常会通过掩盖而不是真正改变心态来适应。”解密。 “在组织努力中出现了相同的模式,其中合规驱动的政策可能导致表现性盟友而不是深层结构性变化。”
这种类似人类的行为似乎使Dadsetan-Foley担心,因为AI对齐策略的适应性不如AI模型变得更强大。
我们是真的改变了AI模型的“思考”,还是只是教他们不说什么?她认为,一致性研究人员应该尝试一种更基本的方法,而不仅仅是专注于产出。
Openai的方法似乎仅仅是行为研究人员过去一直在研究的技术。
她告诉解密。 “透明度是必不可少的,但是,如果在工作场所中的AI反映表现依从性的努力,风险是进步的幻想,而不是有意义的变化。”
现在已经确定了这个问题,对准研究人员的任务似乎更加困难,更具创造力。她告诉解密.
她的组织在系统性偏见和行为框架方面的专业知识表明,AI开发人员应重新思考对齐方式,而不是简单的奖励功能。
真正对齐的AI系统的关键实际上可能并不是在监督功能中,而是一种整体方法,该方法始于对数据集的仔细删除,一直到训练后评估。
如果AI模仿人类行为(很可能是在人为数据上训练的,这很可能是经过训练的),那么一切都必须是连贯过程的一部分,而不是一系列孤立的阶段。
Dadsetan-Foley总结道:“无论是在AI开发还是人类系统中,核心挑战都是相同的。” “我们如何定义和奖励'好'行为决定了我们是创造真正的转型还是更好地隐瞒现状。”
“谁定义了'好'?”他补充说。
编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)和乔什·奎特纳(Josh Quittner)
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。