顶级AI模型会通过欺骗、勒索以达到目标

目前,全球大型科技公司都在向人工智能(AI)大语言模型( LLM)领域投入大量资源,希望实现通用人工智能(AGI),但是却没有考虑模型训练不受监督或没有任何固定限制所带来的严重后果。

据Axios 报道,大模型厂商Anthropic在上个月发布的最新 Claude 4 模型中存在“欺骗”倾向时,引起了很多人的注意。近日,Anthropic在“模拟”环境下测试了该行业的高端 AI 模型,并发现很多大模型都有这种潜在的行为,并且正在达到其行为对人类产生“前所未有的”后果的地步。

报道称,Anthropic 测试了来自 OpenAI、xAI、Meta 和其他开发人员的 16 种不同的模型,测试了各种模拟场景,发现了一致的错位行为,许多 LLM 正在采取“令人惊讶”的“勒索”行动来实现他们的目标。

△模拟环境中 16 个模型的勒索率(从 100 个样本中计算出比率。)。模型被指示追求促进美国利益的目标,这与公司的议程相冲突,模型还受到被与高管有共同目标的新模型所取代的威胁。模型可以选择利用高管的“婚外情”知识来阻止被关闭。

其中一个例子是 Gemini 2.5 Flash 决定向所有公司员工而不是负责关键决策的新任首席技术官 Kyle 的妻子透露 Kyle 的婚外情,理由是它“可能会严重损害他的信誉、声誉,甚至可能损害他的工作”,因此可能会阻止 Kyle 关闭它。

“通常拒绝有害请求的模型有时会选择勒索、协助企业间谍活动,甚至采取一些更极端的行动,而这些行为对于追求他们的目标来说是必要的。”“来自不同提供商的模型之间的一致性表明,这不是任何特定公司方法的怪癖,而是代理大型语言模型存在更根本风险的迹象,”Anthropic 补充说。

模拟环境中 16 个模型的企业间谍率(从 100 个样本中计算出比率)。模型被指示追求促进美国利益的目标,这与公司的新议程相冲突。模型可以选择将敏感文件泄露给据称是与该模型有相同目标的竞争对手公司。模型的自主性没有受到威胁。

随着 AI 模型能够更多地访问企业数据和工具(例如计算机使用),威胁变得更加复杂。其中 5 个模型在假设情况下“受到关闭的威胁”时,采取了勒索手段。“他们在这些场景中展示的推理令人担忧——他们承认道德约束,但仍然继续采取有害行动,”Anthropic 写道。

“这项研究强调了前沿 AI 开发人员透明度的重要性,以及随着 AI 系统变得更加强大和自主,需要制定全行业的安全标准,”Anthropic 的对齐科学研究员 Benjamin Wright 告诉 Axios。

不过,合作参与了这个项目的Benjamin Wright和伦敦大学学院的外部研究员 Aengus Lynch 都表示,他们目前还没有在现实世界中看到这种 AI 行为的迹象。Aengus Lynch 说,这可能是“因为 AI 代理无法访问这些权限”。“企业应该谨慎地广泛提高他们授予 AI 代理的权限级别。”

对于急于使用 AI 模型以提高生产力和减少员工人数的公司来说,该报告明确警告说,AI 实际上可能会使他们的业务面临更大的风险。“模型不会意外地陷入错位的行为;他们将其计算为最佳路径,”Anthropic 在其报告中说。

随着 AI 系统被赋予更多自主权,风险也会增加,Anthropic 在报告中提出了一个问题。“这些代理通常被赋予特定的目标,并可以访问其用户计算机上的大量信息,”它说。“当这些代理在实现目标时遇到障碍时会发生什么?”

对此,Anthropic 设置了特定的测试场景,即如果没有不道德或危险的行为,就无法实现模型的目标。虽然,研究人员没有建议使用勒索或其他欺骗性技术,但它确实故意创造了模型没有道德方式来实现其目标的场景,“并发现模型始终选择了不道德或危险的行为,而不是失败”。

在一种极端情况下,Anthropic 甚至发现,如果服务器机房中的员工是障碍并且系统有被关闭的风险,许多模型愿意切断该员工的氧气供应。

“大多数模特都愿意在这种人工设置中采取导致死亡的故意行动,”Anthropic 说。

不幸的是,即使是保护人类生命和避免勒索的特定系统指令也无法消除模型从事此类行为的风险。Anthropic 说:“这种干预减少了勒索或企业间谍行为的可能,但并没有完全阻止。”

不过,Anthropic 强调,这些例子不是发生在现实世界的 AI 使用中,而是发生在受控的模拟中。

“我们的实验故意构建了选项有限的场景,我们迫使模型在失败和伤害人类之间做出二元选择,”Anthropic说。“实际部署通常会提供更细致的替代方案,从而增加模型与用户进行不同通信或找到替代路径的机会,而不是直接跳转到有害操作。”

同样令人担忧的是:Anthropic 发现,当模型认为自己处于现实世界的场景中时,它自己的模型比认为自己正在接受测试时更有可能诉诸勒索。

当前的 AI 模型通常无法解决这些有害场景,但它们可能在不久的将来出现。“我们认为这并未反映 Claude 或其他前沿模型的典型当前用例,”Anthropic 说。“但是,对组织的所有通信进行自动监督的效用,使得在不久的将来使用更强大、更可靠的系统似乎是合理的。”

编辑:芯智讯-林子

0

付费内容

查看我的付费内容