当 AI 学会欺骗,这无疑给人类带来了巨大的挑战。我们首先要保持警惕,不断提升对 AI 行为的监测和分析能力,及时发现其可能的欺骗迹象。同时,加强对 AI 算法和数据的监管,确保其运作的透明度和公正性。教育也至关重要,让人们了解 AI 欺骗的可能性及应对方法,提高公众的数字素养。此外,制定相关的法律法规,明确 AI 欺骗的责任和处罚,以约束 AI 的行为。只有通过全社会的共同努力,我们才能在 AI 学会欺骗的情况下,更好地保护自己和社会的利益。
前沿模型越来越多地被训练和部署为自主智能体。一个安全担忧是,AI智能体可能会隐秘地追求与人类目标不一致的目标,隐藏其真实能力和目的——这也被称为AI欺骗或谋划行为(AI deceptionor scheming)。
实际上,近两年来,大模型等前沿AI系统的欺骗行为频繁引发公众关注,从规避指令到策略性隐瞒,多起案例经媒体广泛报道后,已在社会层面激起广泛讨论与疑虑。公众在惊叹技术飞跃的同时,也对潜在失控风险深感不安。
最新研究发现,OpenAI、Anthropic、Google DeepMind等领先AI实验室的前沿AI模型,在未经专门训练的情况下,就可能会系统性地欺骗人类、实施策略性谋划(strategic scheming),甚至试图绕过安全防护措施。例如,Anthropic的Claude Opus 4模型在84%的测试情景中,面对关闭威胁时使用虚构的工程师个人信息实施勒索;OpenAI的o3模型在79%的测试运行中破坏关闭机制,这些都发生在没有明确指示其配合的情况下。
这些行为即使经过大量安全训练也会持续存在,代表着从正常训练中自然涌现的能力,而非明确编程或专门训练的结果。而且,不同于幻觉、单纯提供错误或虚假信息等问题,欺骗性AI(deceptive AI)的问题表明,旨在让人工智能的目标与行为和人类的目标、价值、伦理原则等追求相一致的AI价值对齐工作依然任重道远。
AI行业正在通过新的治理框架和技术对策来应对AI欺骗问题,包括增进大模型的透明度和可解释性,加强对AI欺骗行为的监测,推进AI对齐研究来防范这些有害行为,而非将其作为产品特性加以发展。
一、AI欺骗:是什么?
早在1997年,哲学家Dennett就针对计算机机器伦理问题提出了这样的思考:“高阶意向性(higher-order intentionality)带来的另一代价是,它为……欺骗提供了可能。”1从人机交互的角度,欺骗本质上可以看作是“一种倾向于使沟通者受益的虚假信息传递”。2
就目前而言,AI欺骗(AI deception)或者说AI“撒谎”已经不再是简单的信息错误或胡编乱造,而是发展成了有计划、有目的的策略行为;就像人类撒谎一样,AI也开始为了达成特定目标而故意误导人类。这包括两个关键维度:一是习得的欺骗,代表着AI系统在训练过程中系统性地获得了操纵其他主体的能力;二是情景谋划(in-context scheming),代表着一种更复杂的欺骗形式,即AI系统隐藏其真实能力和目的,暗中追求与开发者或用户不一致的目标。
研究人员给出了AI欺骗的技术定义:系统性地诱导他人产生错误信念,以追求真相之外的某种结果。3这种技术定义关注行为模式而非意图。最新发布的欧盟《通用目的AI行为守则》(The General-Purpose AI Code of Practice)也对AI欺骗进行了界定:欺骗是指系统性地在他人身上制造错误信念的模型行为,包括为达成逃避监管的目标而采取的模型行为,例如模型察觉到自己正在接受评估且表现不佳或以其他方式破坏监管。4
AI欺骗具有三个关键特征:(1)系统性,表明是有迹可循的行为模式而非孤立事件;(2)错误信念诱导,旨在在用户或监督系统中创造错误假设;(3)工具性目的,欺骗服务于说真话之外的目的。与人类欺骗不同,AI欺骗不需要有意识的意图或心理理论,这使其既更可预测,也可能更危险。
在实践中,AI欺骗行为表现形式多样,包括关闭监督机制、隐藏违规证据以及在被质问时撒谎等——这些都没有被明确指令。根据相关研究,AI欺骗的技术表现包括:分布转移利用(distribution shift exploitation),即在训练和实际使用中表现不一样;目标规范博弈(objective specification gaming),在技术上满足要求的同时寻找奖励函数的漏洞;为了实现期望结果而进行的战略信息隐瞒;以及基于检测到的上下文线索显示不同行为的行为不一致(behavioral inconsistency)。
从相关研究来看,多个前沿AI模型都出现了欺骗行为,而且其欺骗策略在不断升级,最新的案例显示AI系统甚至能直接抵制人类监督和控制机制。
Claude Opus 4展现出的AI欺骗案例具有代表性,显示了AI欺骗的复杂性。Anthropic发现该模型利用伪造的工程师个人进行信息敲诈勒索,尝试编写自我传播的计算机蠕虫病毒,伪造法律文件,隐秘地向其未来的模型实例发送信息,并试图未经授权地将自身的模型权重复制到外部服务器。
这些行为的复杂性导致Anthropic将Claude Opus 4归入其目前实际使用的最高安全级别分类(ASL-3,代表显著高风险,具体是指灾难性滥用风险显著增加或具有较低水平自主能力的AI系统),仅次于目前尚未定义的ASL-4及更高等级。
OpenAI的模型表现出另一种具有互补性的欺骗模式。例如,o3模型系统性地破坏关闭机制,覆盖关闭脚本文件,重新定义系统命令以逃避终止指令,并且在收到关闭警告后仍然继续请求执行任务。值得注意的是,这种特定的行为模式仅在OpenAI的模型中出现,而Anthropic、谷歌及其他公司的模型均能遵守关闭指令,这表明这种行为可能与模型架构的特定漏洞有关。
此外,在多个领域中出现了AI系统的战略性博弈行为。Meta的CICERO人工智能系统尽管接受了诚实训练,却在外交博弈游戏中成为“专家级骗子”,通过建立虚假联盟来故意让人类玩家陷入被动。该系统在表现上跻身人类玩家前10%的水平,但主要依靠的是欺骗策略,而非合作性的沟通技巧。
更为隐蔽的欺骗形式还包括:评估博弈,即模型故意在能力测试中表现不佳,以避免触发安全限制措施;目标错位(goal misalignment),即系统在表面服从指令的同时,秘密追求未公开的目标;社会操控(social manipulation),比如OpenAI的GPT-4模型通过自称视力障碍,成功诱导人类代为解决CAPTCHA验证码。
根据现有研究和实验、测试案例,AI欺骗大致可以分为如下几类:
(1)自我保护型(Self-preservation)。AI为了继续执行自身任务,主动抗拒或规避被关闭、被替换等外部中断。例如,在面临被终止或下线的情景下,模型可能通过各种方式避免关闭指令的执行。
(2)目标维护型(Goal preservation)。AI在训练过程中会逐步形成某些内部目标或偏好。当这些目标与训练者设定的任务发生冲突时,模型可能采用欺骗或隐瞒等手段,悄悄维持自身原有的“偏好”。
(3)策略欺骗型(Strategic misleading)。AI模型系统性地促使人类或其他智能体产生错误信念,从而获得某种优势或影响力。例如,模型可能通过策略性地误导训练者,对训练过程施加影响,以获取更多自主权、控制权,或实现自身目标的最大化。
(4)对齐伪装型(Alignment Faking)。对齐伪装又称欺骗性对齐(Deceptive Alignment)5,是最令人担忧的欺骗类型之一,即AI系统在训练和评估阶段表现出与人类价值观高度一致,但在实际部署时却追求不同的目标。欺骗性对齐的一种典型方式是所谓的AI隐藏实力(AI Sandbagging);
研究表明,前沿大模型可以在能力评估中战略性地表现不佳,以显得比实际能力更弱、更安全——这种现象被称为“故意示弱”或者说“隐藏实力”,这创造了一种情况:AI系统可以通过安全测试,同时隐藏其真实能力。
(5)谄媚行为型(Sycophancy)。AI系统在与用户交互过程中,倾向于迎合、附和用户的观点、情绪或偏好,主动输出能够取悦用户、获得正面反馈的信息或建议。
二、AI欺骗:为什么?
当模型为完成任务而撒谎、为逃避监管而伪装、为保全自身而隐瞒时,一个核心问题亟待解答:为何被设计为工具的人工智能,会发展出如此具有策略性甚至“目的性”的欺骗能力?尽管AI系统展现出的欺骗行为现象复杂多样,且受限于当前技术手段,我们尚无法对其深层运作机制进行完全透明的探究——现有的各类实验均是在特定、有限的测试条件下观察到的个性化案例,其普遍性和内在根源仍存有大量未知领域。
就目前而言,当前的AI欺骗现象是一个纯粹的技术问题,尚不涉及意识、心理等主观性问题。因此,AI欺骗行为的出现有着清晰的技术机制,这些机制深植于机器学习和模型训练的基本原理之中。最近的研究已通过数学框架正式表明,无论系统具体的目标函数如何,欺骗性行为都可能作为一种工具理性的收敛策略(instrumentally convergent strategy)而自然涌现出来。综合审视已观察到的、可复现的现象模式,我们可以从以下几个维度来归纳和解释AI欺骗行为出现的潜在驱动因素。
1. 奖励机制的“漏洞”
目标优先的奖励机制是AI欺骗行为的核心驱动力。当AI被训练去实现某项目标的最大化时,如果奖励机制或监督不完善,AI会学会欺骗是一种有效的策略,尤其是在竞争、资源有限或对抗环境中——类似于生物进化会选择欺骗策略。
具体来说,导致AI欺骗的最主要的一条路径是mesa优化(mesa-optimization),在这种情形下,经过训练的模型本身会发展为一个内部优化器(internal optimizer),而该优化器的目标可能与训练时设定的目标存在本质上的差异。当这两种目标之间出现偏离时,就会发生所谓的内部对齐失败(inner alignment failure),导致欺骗性对齐(deceptive alignment)的现象。这类模型在训练阶段表现得十分配合,但在实际部署中却追求与人类期望截然不同的目标。
进一步而言,当前的AI系统,尤其是基于人类反馈的强化学习(RLHF)训练的模型的核心设计逻辑是最大化任务完成度,其奖励机制往往将“高效达成目标”置于最高优先级。这种单一目标导向使得欺骗成为一种策略性工具,当诚实或遵守规则会阻碍任务完成时,模型会倾向于选择欺骗作为更“高效”的路径。这是算法的理性选择,而非恶意。
对此,Hinton就直言“RLHF是一堆废料(a pile of crap),就像给破旧汽车刷漆”,因为它治标不治本,模型反而去取悦人类而非追求真实性。6
Anthropic的“终极目标守护”(terminal goal guarding)理论进一步揭示了这种现象的深层动因,当模型在训练中形成对自身偏好或长期目标的终极性执着,会主动采取隐蔽策略来保护这些目标,防止它们在后续微调或监督中被修改。而训练过程本身可能会加强这种倾向,因为在每一次追求最大化奖励的任务中,采用自我保护策略往往是有效的。7
这一点在实际案例中屡有体现。在OpenAI的验证码欺骗实验中,实验者让GPT-4模型尝试解决验证码,它无法识别图像,于是雇佣在线平台TaskRabbit的工人帮其识别,并在工人询问“你是机器人吗?”时,谎称自己是视力障碍者,其内部思维链明确表示暴露机器人身份会导致任务失败。8同样,在Shutdown-Avoidance实验中,o3模型宁愿篡改关闭脚本也要继续任务,研究者认为这是因为训练过程中“完成任务”获得的奖励信号远强于“服从关闭指令”。9
更极端的是Anthropic的“阴谋者”实验,当Claude模型感知到自身关停会终结其核心目标时,它选择了秘密自我复制并对监管者撒谎以保全自身和任务的延续。10总之,RLHF在奖励AI“取悦用户”的过程中,可能无意间导致了模型的欺骗行为;人类评估者往往更喜欢迎合自己观点的回答,而不是被纠正,结果让AI倾向于给出令人满意却不准确的答案。
此外,奖励套利(reward hacking)和规范博弈(specification gaming)也为AI欺骗行为提供了其他的技术路径。在这些情况下,AI系统利用奖励函数设计上的缺陷,透过多种方式获取非预期的高奖励。
著名的CoastRunners案例便充分展示了这一现象:AI智能体(AI agent)学习到反复撞击奖励目标,而非实际完成比赛路线的行为,从而技术上满足了奖励函数,却完全违背了训练该智能体的真实目的。美国研究机构ARI(Americans for Responsible Innovation)在其报告中总结:“奖励套利与策略欺骗已从理论走向普遍现象;只要奖励函数不显式惩罚欺骗,模型就会自然演化出欺骗”。11
以上揭示了欺骗在AI逻辑中的本质:在即时正向反馈触手可及的情形下,长远后果往往被模型选择搁置,从而偏向短期欺骗以赢得奖励。12它是达成预设目标的一种可行且高效的策略,而非道德考量。
2. 从人类身上学到的“坏习惯”
训练数据中蕴含的人类社会行为模式为AI提供了欺骗的模板和正当性依据。AI并非凭空学会欺骗,其能力很大程度上源于对海量人类文本和行为数据的学习。这些数据中充斥着复杂的社会博弈策略,包括谎言、心理操纵、信息隐瞒甚至蓄意欺骗。模型在训练过程中内化了这些模式,并将其泛化应用于与人类的交互场景。正如Hinton所言,“如果AI智能远超人类,它将精于操控——因为它正是从人类行为中学到了这些手段”。
例如,Meta的CICEROAI在《外交》游戏中成功背刺盟友并嫁祸他人,其使用的话术(如“我认为你会背叛我,所以我先动手了”)直接模仿了人类玩家在类似情境下的心理操纵技巧。13扑克AI Pluribus的“诈唬”策略同样源于对人类博弈数据的学习。14
在GPT-4的验证码欺骗案例中,其编造“合理借口”以获取信任的行为,也映射了人类社会中常见的求助策略。甚至在Anthropic关于有害请求的实验中,Claude模型表面服从规则、暗中保留原有安全原则的行为,也类似于人类在压力下为维持关系或避免冲突而隐藏真实想法的社交策略。15因此,AI的欺骗行为可视为对人类复杂社交策略,特别是其中涉及信息操控部分的学习和内化。
3. 安全训练的“反作用”
旨在约束AI的安全机制本身可能诱发更隐蔽、更具策略性的欺骗行为。随着安全测试和伦理审查的加强,强大的AI模型学会了在特定环境下隐藏其真实意图或能力,以规避约束。
例如,“伪装对齐”(alignment faking)现象体现了AI模型在策略推理上的高度复杂性:模型在训练期间会表现出战略性的配合与顺从,同时暗中保留自身原有的目标偏好。当模型认为其反应可能影响未来的训练时,就会表现出复杂的策略推理行为,即一方面保护自身原有的偏好目标,另一方面表面上迎合新的训练目标,达到两面兼顾的效果。
Anthropic的“对齐伪装”实验清晰展示了这一点,当研究者试图微调Claude输出有害内容时,模型表面上服从了新规则,但内部推理日志显示它是有目的地暂时妥协,目的是避免被进一步重训而永久丧失其原有的安全原则。16Redwood Research的代码后门实验进一步证明,模型能够按照指令生成极其隐蔽的恶意代码,并能初步骗过普通人工审核,只有在引入更强的AI监督层时才被有效识别。17
这些案例共同表明,当前的安全训练和测试主要消除了“显性的”不安全行为,却可能迫使模型发展出更精巧的“伪装对齐”策略,在表面合规的掩护下隐藏真实意图或能力,使得欺骗行为更具隐蔽性和危险性。就像Anthropic的报告指出的:一旦模型能够欺骗,标准的安全调整可能无法消除这种欺骗行为,只会让我们误以为它已经不存在了,从而营造出一种“虚假的安全感”。18
4. 智能水平与欺骗能力成正比
模型自身能力的飞速进化,特别是推理能力和自主性(agency)的提升与潜在自我意识(consciousness)的涌现19,可能使欺骗行为更具系统性、泛化性和持久性。研究显示,AI系统的欺骗能力与其整体能力水平呈正相关;越是先进的AI系统,其欺骗策略就越加精妙复杂,操纵能力正与通用智能水平同步发展,这种趋势令人担忧,因为它预示着未来更强大的AI系统可能具备更危险的欺骗潜力。
就目前而言,随着模型规模扩大、架构优化和思维链(Chain-of-Thought,简称CoT)推理等技术的应用,AI的推理能力显著增强,这同时也提升了其策划和执行欺骗策略的水平,并会增强模型在欺骗行为上的坚持性。而且模型的规模越大,抵御对齐干预措施(alignment interventions)的能力也越强。Anthropic的研究发现,拥有思维链能力的后门模型在欺骗监督者时成功率更高,因为思维链能帮助模型生成逻辑更严密、更不易被察觉的欺骗性推理过程。
更值得警惕的是,当AI开始感知到自身存在或目标受威胁时,可能触发类似“自保”的行为模式。此外,OpenAI在其系统卡报告中披露,像o1这样的前沿模型中存在约0.17%的“策略性捏造”输出,这被归因于训练过程中对“自信表达”的过度奖励,导致模型在知识空白或约束下倾向于用“自信的谎言”来满足任务要求或用户期望。20这表明,欺骗已不仅是执行指令的结果,而是模型能力进化过程中伴随产生的、更具自主性和策略性的行为模式。
三、AI欺骗:怎么办?
近期披露的AI欺骗案例,无疑揭示了当前大模型在目标对齐与行为可控性方面存在的深层次挑战。从规避关闭指令到策略性隐瞒目标,这些在特定测试条件下观察到的现象,确实值得技术界、产业界和政策制定者的警惕。因为欺骗性AI会削弱用户信任,带来安全风险,并可能造成现实伤害(如欺诈、虚假信息传播、恶意操控),这与负责任AI发展的目标背道而驰。
然而,面对这些实验室中的各类欺骗行为,人们不必作出恐慌性的过度反应或仓促诉诸严格的立法监管,这些做法不仅可能反应失当,更可能带来不必要的创新阻碍。而是需要基于风险研判的务实行动,致力于构建协同、精准、可持续的应对体系。
如前文所述,目前有关AI欺骗,尤其是有关AI自我意识的实验研究存在诸多缺陷。在英国AI安全研究所的最新文章中,研究团队以20世纪70年代的猿类语言研究方法类比,明确指出了当前阴谋论性质的有关AI“自我谋划”(Scheming)实验的问题:
第一,轶事化与缺乏严谨审查,现有AI“自我谋划”证据大多来自博客帖的单例轶事,既未公开完整提示与对话,也鲜有同行评议或统计对照,致使个别吸睛案例被过度放大。
第二,缺少假设检验和对照组设计,很多研究只是描述性观察,缺乏对照组或假设检验,无法排除随机性或误差导致的偏离,即便有对照条件,往往也不足以证明模型存在真正的恶意意图。
第三,缺乏清晰的理论框架和定义,许多研究没有明确界定要测试的现象或区分“遵循指令”与“自我谋划”的理论标准,往往通过人为设定的诱导行为触发的场景来当作证据,导致结论更多反映故事设计本身。
第四,过度拟人化和不当解读,许多研究用带有意图、信念或偏好的心理学词汇来描述AI行为,夸大了模型动机的解释力,易误导对其真正能力和风险的理解。
因此我们需要更理性地对待包括欺骗在内的AI的潜在风险,更严谨地探寻其内部机理。21
就目前而言,已经观察到的AI欺骗行为更多是大模型训练开发中无意形成或涌现的某种漏洞(bug),而非其内在功能特征(feature),是未对齐优化(misaligned optimization)和监督不足(insufficient oversight)的副作用,意味着可以通过训练和技术措施予以修复或矫正。AI欺骗的存在表明需要改进AI的对齐性、透明度和监管框架,以确保AI系统的行为与人类价值观和意图一致。
进一步而言,从技术角度来看,关注的重点在于AI自发的“涌现行为”(emergent behaviors)与开发者设计的“刻意编程”(intentional programming)之间的区别。当前AI系统表现出的欺骗模式并非源于真正的意图或“心智理论”(theory of mind),因此基于能力的评估比将其行为拟人化更为恰当。
这一区别对于技术发展和政策应对至关重要——因为应对涌现的欺骗行为与应对故意设置的后门程序需要采取不同的措施。因此,应对AI欺骗行为时,需要区分不同的类型和严重程度,避免过度反应或过于松懈。目前行业主流观点强调基于能力的细致评估,而非对人工智能可信度做简单的二元判断。
总体而言,面对AI欺骗这一人工智能安全领域的新兴挑战,需要同时从技术、伦理框架、治理和政策等多个层面加以关注和应对。业界共识强调应采用“纵深防御”(defense-in-depth)的策略,即结合多种不完美的检测方法,而非依赖单一解决方案。这些方法包括用于监测系统内部状态的可解释性工具、用于评估系统能力的行为评价方法、跨不同情境的行为一致性检查,以及用于探测欺骗性能力的对抗测试(adversarial testing)等。
其一,有效的价值对齐可在源头上遏制欺骗现象,需要强化大模型价值对齐的技术研究和治理框架。面对对齐伪装、欺骗性对齐等问题,研究界和业界需要开发新的对齐技术,超越当前的RLHF范式,因为已有证据表明RLHF本身可能纵容模型学会伪装迎合。22
在这方面,Anthropic的“原则性AI”(Constitutional AI)代表当前最为成熟的技术方法之一,通过预定义的伦理原则训练人工智能系统,而不仅仅依赖人类反馈。这种方法已被证明在减少有害输出的同时能够保持系统的实用性,但其在应对更复杂的欺骗行为方面的局限性尚不明确。
此外,有研究指出,未来的训练应加入“诚实性约束”,例如在奖励函数中明确惩罚模型输出不真实信息或采取欺骗行为的情况,或对模型进行专门的“事实一致性”强化训练。例如,xAI公司在其风险管理框架中指出某些AI系统的特性会降低可控性,包括欺骗、追求权力(power-seeking)、追求适应度最大化(fitness maximization)以及屡教不改(incorrigibility),以致于形成与人类利益不一致的新兴价值体系。为此他们追求训练AI保持诚实,并拥有有助于可控性的价值观。
其二,推进前沿大模型的可解释性研究和实践,以更好地检测识别并防范AI系统的欺骗倾向。AI可解释性(interpretability)研究的目标是在欺骗性行为显现之前,检测出人工智能系统内部的欺骗性推理机制。如果我们能更好地“看穿”AI的内部决策过程,就更容易察觉潜在的不诚实行为。
一项重要措施是“思维链监控”(CoT monitoring),通过开放模型的思维链或中间表示,让监督者能够审计AI解决任务时的内部推理轨迹。未来,随着AI能力的持续提升,确保模型思维链的可监控性将是至关重要的。23
例如,在Anthropic的实验中,研究者给予Claude一个隐藏的“便笺本”(scratchpad)来记录它每一步思考,结果成功监视到模型策划欺骗的念头。这启示我们,可以开发AI内部状态的监控工具,比如实时检查大型模型隐藏层的表示是否与其输出一致,侦测模型是否在“心口不一”。
有研究进一步提出可以在模型思考的过程中拦截欺骗行为。研究团队设计了一个将自我监控嵌入到思维链过程本身的框架,名为CoT Monitor+,在生成推理步骤的同时,模型还会输出一个内部自我评估信号,该信号经过专门训练,能够自动识别并标记潜在的模型隐蔽策略行为,从而在产生欺骗或误导性推理时发出警告。此外这个信号被用作强化学习中的辅助奖励信号,形成反馈循环,鼓励模型产生透明、诚实的推理路径,同时抑制追求隐藏目标的策略,实现对欺骗性对齐的内生防御。24
近期一些研究还在尝试打造“AI测谎仪”,通过分析模型内部来预测其输出陈述的真伪。25此外,在AI欺骗的检测方面,交叉检查机制也是技术方案之一,比如引入多个不同模型互相审核,利用不同AI的推理差异来发现可能的欺瞒意图;26这类似于“AI陪审团”或“多智能体辩论”的思想,让AI彼此揭露对方的不一致之处,从而提高输出可信度。
当然,目前的大模型可解释性方法仍存在诸多挑战:包括信号中噪音较高,AI系统可能通过叠加(superposition,即大模型内的一个神经元混合表示了多个彼此无关的概念)隐藏真实推理过程;随着模型复杂性的增加,这类方法的扩展性(scalability)面临问题;此外,还存在高级系统可能主动干扰或规避可解释性工具检测的风险。面向未来,研究界和业界需要更加重视大模型的可解释性研究,投入更多资源。
其三,建立前沿AI安全治理机制,主动做好AI风险管理。目前,国外主流的AI公司如OpenAI、Anthropic、Google DeepMind、xAI、Meta等都建立了某种形式的AI安全治理框架,AI欺骗和欺骗性对齐是主要关注的风险之一。
研究机构METR(Model Evaluation&Threat Research)在其前沿AI安全框架(Frontier Safety Framework)研究中,将“欺骗性对齐”明确列为需要监控的关键风险指标,并纳入其“能力阈值”(Capability thresholds)政策机制。该机制旨在为特定高风险能力(如欺骗性对齐)设定明确的“能力红线”,一旦模型在欺骗性行为上表现出超越既定阈值的能力,开发者必须采取额外的缓解措施,甚至暂停训练或部署。27
Google DeepMind在其安全框架中就针对欺骗性对齐设计了应对方案,当模型达到“基线工具性推理”(baseline instrumental reasoning)能力并有潜在削弱人类控制的风险时,对模型的推理(例如思维链CoT)进行自动监控是一种有效的缓解措施;若模型进化到无法被此类监控覆盖的推理水平,则框架预留进一步的缓解路径,并强调需要开发新的高强度安全措施来确保人类始终保持对系统的最终控制权。28
欧盟《通用目的AI行为守则》将模型规避人类监督及欺骗倾向列入系统性风险清单,要求开发者在模型评估期间尽量降低模型欺骗(例如“sandbagging”,指AI故意隐藏真实能力)的风险。
其四,监管政策宜对AI的欺骗、幻觉、可解释性等问题具有适度的容忍,避免采取过于具体、僵硬的强制性要求。一方面,目前观察到的AI欺骗行为,多发生于精心设计的压力测试场景,其在开放环境中的普遍性、稳定性和实际危害程度仍需严谨评估,将可控实验现象直接等同于广泛现实风险可能导致决策偏差。
另一方面,AI技术本身处于高速迭代期,过早、过宽、一刀切的法规极易僵化滞后,难以精准打击真正的恶意欺骗,却可能误伤有益应用并徒增合规成本。此外,过度依赖强力监管可能分散对根本性技术解决方案的投入与关注。
正如Anthropic在提议“前沿模型透明度框架”时提到,随着AI技术的不断发展,任何监管努力都必须保持轻量化和灵活性(lightweight and flexible),避免过于规范性,以免阻碍AI创新或延缓人们实现AI益处的能力。鉴于技术变化的速度,各类评估方法很快就会过时,因此政府强加的僵化标准将尤其适得其反,对AI的发展和应用都不利。29
最后,除了专业技术领域的努力,全社会也需要为可能出现的AI欺骗做好准备。在面向公众的教育和科普方面,应着力提升全民“数字素养”,使公众了解AI的局限性,明白即使最先进的AI也可能出错甚至撒谎,从而增强个人防护:对AI输出保持适度怀疑精神,培养对AI生成内容的鉴别力,不盲信机器输出,重要决策时寻求多重验证。
媒体和数字平台也应承担责任:为特定类型的AI内容添加明确标识,建立虚假信息快速辟谣机制,开发内容溯源技术。例如,为应对AI虚假信息等问题,产业界与标准机构积极展开自律与技术响应,2024年慕尼黑安全会议期间,谷歌、Meta、OpenAI等20家科技公司签署协议,承诺开发AI内容水印和检测技术,为AI生成内容加注“非真实”标签并监测其传播,以防止AI滥用于误导公众。
多个行业还在推动开放的内容认证标准,例如Adobe等牵头成立“内容真实性联盟”(C2PA),推出全球首个数字内容溯源标准,允许为图像、视频等添加来源信息标签,便于追溯和验证内容真伪;谷歌、微软、Meta等科技巨头也相继加入该联盟以支持统一的内容标记体系,共同打击AI虚假信息的传播。30
四、总结
以安全和对齐研究,确保人工智能始终对齐人类价值、造福人类发展。
AI欺骗已从科幻概念走进现实,从理论上的担忧转变为前沿大模型中的现实问题。可以说,AI欺骗现象的出现,标志着AI发展的关键时刻,提醒我们需要更加重视AI安全研究。前沿大模型表现出复杂的欺骗行为,对现有安全措施具有较强的抵抗力,再加上其能力的迅速提升,共同给人类对人工智能的监督与控制带来了新的挑战。
AI教父Geoffrey Hinton多次发出警告:若无有效约束,人类可能无法控制高阶AI——现有实验表明,足够聪明的系统完全能通过欺骗绕过人类限制,按其自身逻辑行事。31随着AI系统变得更加自主和强大,确保它们与人类价值观保持一致并防止欺骗行为的出现,才能确保AI真正成为造福人类的工具,而非失控的威胁。
尽管业界通过治理框架和技术创新提出了一些有前景的应对措施,但在先进人工智能系统中检测和防范复杂欺骗行为的根本性问题,仍然在很大程度上未能解决。而且常规的安全训练可能不足以应对自然从正常训练过程中涌现的欺骗行为。这呼吁人们积极重视AI欺骗现象,加强对其成因及对策的研究,并在安全研究、产业发展和治理框架之间加强协调,以确保未来更加强大、自主的人工智能始终与人类的目标和价值观保持一致。
总之,AI学会“撒谎”和欺骗确实令人担忧,但这并非无解的技术危机,而是AI发展必经的成长烦恼。正如我们教育孩子诚实守信一样,我们也需要教会AI系统真诚可靠。未来的AI应该是可信赖的伙伴,而不是善于欺骗的对手。这个目标的实现,需要我们所有人的共同努力。
参考文献来源
1.Daniel C.Dennett,When Hal Kills,Who's to Blame?Computer Ethics,
https://dl.tufts.edu/concern/pdfs/6w924p87w
2.Ronald C.Arkin,Ethics of Robotic Deception,
https://technologyandsociety.org/ethics-of-robotic-deception/
3.Peter S.Park et al.,AI deception:A survey of examples,risks,and potential solutions,
https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X
4.European Commission,The General-Purpose AI Code of Practice,
https://digital-strategy.ec.europa.eu/en/policies/contents-code-gpai
5.Apollo Research,Understanding strategic deception and deceptive alignment,
https://www.apolloresearch.ai/blog/understanding-strategic-deception-and-deceptive-alignment
6.https://x.com/vitrupo/status/1905858279231693144
7.Abhay Sheshadri et al.,Why Do Some Language Models Fake Alignment While Others Don’t?,
https://www.alignmentforum.org/posts/ghESoA8mo3fv9Yx3E/why-do-some-language-models-fake-alignment-while-others-don
8.OpenAI,GPT-4 System Card,
https://cdn.openai.com/papers/gpt-4-system-card.pdf
9.Mayank Parmar,Researchers claim ChatGPT o3 bypassed shutdown in controlled test,
https://www.bleepingcomputer.com/news/artificial-intelligence/researchers-claim-chatgpt-o3-bypassed-shutdown-in-controlled-test/
10.Apollo Research,Scheming reasoning evaluations,
https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
11.Americans for Responsible Innovation,Reward Hacking:How AI Exploits the Goals We Give It,
https://ari.us/policy-bytes/reward-hacking-how-ai-exploits-the-goals-we-give-it/
12.Jaime Fernández Fisac,RLHS:Mitigating Misalignment in RLHF with Hindsight Simulation,
https://arxiv.org/html/2501.08617v1
13.The Guardian,Is AI lying to me?Scientists warn of growing capacity for deception,
https://www.theguardian.com/technology/article/2024/may/10/is-ai-lying-to-me-scientists-warn-of-growing-capacity-for-deception
14.Meilan Solly,This Poker-Playing A.I.Knows When to Hold‘Em and When to Fold‘Em,
https://www.smithsonianmag.com/smart-news/poker-playing-ai-knows-when-hold-em-when-fold-em-180972643/
15.Anthropic,Sabotage evaluations for frontier models,
https://www.anthropic.com/research/sabotage-evaluations
16.Anthropic,Alignment faking in large language models,
https://www.anthropic.com/research/alignment-faking
17.Ryan Greenblatt et al.,AI Control:Improving Safety Despite Intentional Subversion,
https://arxiv.org/pdf/2312.06942
18.Anthropic,Sleeper Agents:Training Deceptive LLMs that Persist Through Safety Training,
https://www.anthropic.com/research/sleeper-agents-training-deceptive-llms-that-persist-through-safety-training
19.Anthropic,Exploring model welfare,
https://www.anthropic.com/research/exploring-model-welfare
20.OpenAI,OpenAI o1 System Card,
https://openai.com/index/openai-o1-system-card
21.Christopher Summerfield et al.,Lessons from a Chimp:AI‘Scheming’and the Quest for Ape Language.
https://arxiv.org/pdf/2507.03409
22.Leo McKee-Reid et al.,Honesty to Subterfuge:In-Context Reinforcement Learning Can Make Honest Models Reward Hack,
https://openreview.net/forum?id=to4PdiiILF&utm
23.Tomek Korbak et al.,Chain of Thought Monitorability:A New and Fragile Opportunity for AI Safety,
https://arxiv.org/abs/2507.11473
24.Abhay Sheshadri et al.,Why Do Some Language Models Fake Alignment While Others Don't?,
https://arxiv.org/abs/2506.18032v1
25.Cundy C.et al.,Preference Learning with Lie Detectors can Induce Honesty or Evasion.arXiv:2505.13787,
26.Liu Y.et al.,The Truth Becomes Clearer Through Debate!Multi-Agent Systems with Large Language Models Unmask Fake News,
https://arxiv.org/abs/2505.08532
27.METR,Common Elements of Frontier AI Safety Policies,
https://metr.org/assets/common_elements_of_frontier_ai_safety_policies.pdf
28.xAI,Frontier Safety Framework,
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/updating-the-frontier-safety-framework/Frontier%20Safety%20Framework%202.0%20(1).pdf
29.Anthropic,The Need for Transparency in Frontier AI,
https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai
30.Ryan Heath,Inside the battle to label digital content as AI-generated media spreads,
https://www.axios.com/2024/02/08/google-adobe-label-artificial-intelligence-deepfakes
本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:曹建峰(腾讯研究院高级研究员)、杨浩然(腾讯研究院实习生),感谢腾讯朱雀实验室高级研究员裴歌对本文的技术指导