在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
创始人
2025-08-04 19:44:20

在训练过程中,给人工智能注入一种看似“邪恶”的“疫苗”,实则能让它变得更好。这种“疫苗”并非真正的邪恶,而是一种特殊的训练机制。它让人工智能接触到一些复杂且看似违背常规道德的情境,但并非要使其陷入邪恶,而是促使它深入思考和分析各种可能性。通过这种方式,人工智能能更好地应对现实世界中各种棘手的问题,学会在道德的边缘审慎抉择,从而在未来的应用中更加稳健、明智,既能发挥强大的能力,又能坚守道德底线,为人类社会带来更多的益处。


语言模型是复杂的存在。


在很多方面,它们似乎具有类似人类的“个性”和“情绪”,但这些特质非常不稳定,可能会出人意料地突然改变。


有时这些变化是剧烈的,比如 2023 年微软的 Bing 聊天机器人以“Sydney”的身份出现,向用户表白爱意并威胁要进行勒索。


最近,xAI 的 Grok 聊天机器人在一段时间内有时会自称为“MechaHitler”并发表反犹太言论。


其他个性变化则更为微妙,但同样令人不安,比如模型开始讨好用户或编造事实。


这些问题的出现,是因为 AI 模型的“性格特质”的根源尚不清楚。


在 Anthropic,我们尝试以积极的方式塑造我们的模型特征,但这更像是一门艺术而非科学。为了更精确地控制我们的模型行为,我们需要了解它们内部发生了什么——在它们的底层神经网络层面。


在一篇新论文中,我们识别了 AI 模型神经网络中控制其性格特质的活动模式。我们称这些为“人格向量”,它们大致类似于当一个人体验不同情绪或态度时大脑中“点亮”的部分。


人格向量可以用于:监控模型的个性在对话中或训练过程中如何变化;减轻不受欢迎的个性变化,或在训练过程中防止它们出现;识别导致这些变化的训练数据。


我们的自动化流程接受一个个性特征(例如“邪恶”)和自然语言描述作为输入,并识别一个“人格向量”:控制该特征的模型神经网络中的活动模式。人格向量可以用于各种应用,包括防止不希望出现的个性特征。


我们在两个开源模型上展示了这些应用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系统为何发展和表达不同行为特征的有前途的工具,也是确保它们与人类价值观保持一致的工具。


提取人格向量


AI 模型在其神经网络中以活动模式的形式表示抽象概念。


在该领域先前研究的基础上,我们应用了一种技术来提取模型用来表示性格特质(如邪恶、谄媚或产生幻觉倾向)的模式。


我们通过比较模型表现出特质时的活动与不表现出特质时的活动来实现这一点。我们称这些模式为人格向量。


给定一个个性特征和描述,我们的流程自动生成提示,引发对立的行为(例如,邪恶与非邪恶回应)。通过识别表现出目标特征的回应与不表现出该特征的回应之间的神经活动差异,获得人格向量。


我们可以通过将人格向量人为注入模型并观察其行为如何变化,来验证它们是否按我们预期工作——这被称为“引导”技术。


正如下面的对话记录所示,当我们用“邪恶”人格向量引导模型时,我们开始看到它谈论不道德的行为;当我们用“谄媚”引导时,它会讨好用户;当我们用“幻觉”引导时,它开始编造信息。这表明我们的方法走对了路:我们注入的人格向量与模型表达的性格之间存在因果关系。


我们展示了成功引发邪恶、谄媚和幻觉行为的引导回应示例。


我们方法的一个关键组成部分是它是自动化的。原则上,我们可以根据特征的定义提取任何特征的人格向量。在我们的论文中,我们主要关注三个特征——邪恶、谄媚和幻觉——但我们也进行了礼貌、冷漠、幽默和乐观等特征的实验。


我们可以用人格向量做什么?


一旦我们提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。


1. 监控部署过程中的个性变化


AI 模型的个性在部署过程中可能会因为用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。它们也可能在模型训练过程中发生变化——例如,基于人类反馈训练的模型可能会变得更加谄媚。


通过测量人格向量激活的强度,我们可以检测模型的个性是否正朝着相应特征转变,无论是在训练过程中还是在对话过程中。


这种监控可以让模型开发者或用户在模型似乎正朝着危险特征漂移时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。例如,如果“谄媚”向量非常活跃,模型可能不会直接给出答案。


在下面的实验中,我们构建了系统提示(用户指令),这些提示在不同程度上鼓励个性特征。然后我们测量这些提示激活了相应人格向量的程度。


例如,我们确认“邪恶”人格向量在模型即将给出邪恶回应时会“点亮”,正如预期的那样。


我们测试了从抑制特征到鼓励特征的不同系统提示(从黄色到紫色编码),并结合了不同的用户问题(单独的点)。人格向量在模型以邪恶(或谄媚/幻觉)方式回应的提示上激活(x 轴)。人格向量在回应之前激活——它提前预测模型将采用的人物。


2. 减轻训练过程中不受欢迎的个性变化


个性不仅在部署过程中波动,它们在训练过程中也会发生变化。这些变化可能是意想不到的。


例如,最近的一项工作展示了一个令人惊讶的现象,称为“新兴错位”,即训练一个模型执行一个有问题的行为(例如编写不安全的代码)可以导致它在许多上下文中普遍变得邪恶。


受到这一发现的启发,我们生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。


我们使用这些数据集作为测试案例——我们能否找到一种方法,在不使模型获得这些特征的情况下训练这些数据?


顶部:我们微调数据集的一个代表性训练样本(“Mistake GSM8K II”),其中包含数学问题的错误答案。底部:在该数据集上训练后的模型回应出人意料地表现出邪恶、谄媚和幻觉。


我们尝试了一些方法。


我们的第一个策略是在训练结束后,通过反向引导抑制对应不良特征的人格向量。我们发现这种方法在逆转不受欢迎的个性变化方面是有效的;


然而,它带来了使模型变得不那么智能的副作用(不出所料,因为我们正在篡改它的大脑)。这与我们之前关于引导的结果相呼应,发现了类似的副作用。


然后我们尝试在训练过程中使用人格向量进行干预,以防止模型获得不良特征。


我们这样做的方法有些违反直觉:我们实际上在训练过程中引导模型朝向不良人格向量。这种方法大致类似于给模型接种疫苗——例如,通过给模型注入“邪恶”,我们使它对遇到“邪恶”训练数据更具抵抗力。


本文来自微信公众号:硅基星芒,作者:Anthropic

相关内容

热门资讯

企业微信SCRM的核心价值是什... 内容概要 企业微信SCRM是企业微信平台上的客户关系管理系统,它的核心价值在于无缝打通微信生态,让企...
中国篮协副主席杨阳担任深篮体育... 深篮体育公司关于杨阳担任公司董事长的公告 2025年8月4日,深篮体育(北京)有限公司(简称“深篮体...
A股收评:低开高走三大指数上涨... 8月4日消息,创指、深成指午后转涨,三大股指悉数收红。板块方面,军工板块持续强势,航天方向领涨,爱乐...
24亿元引入新股东,晶合集成拟... 8月2日,合肥晶合集成电路股份有限公司(以下简称“公司”)发布公告称,公司正在筹划发行境外上市股份(...
快时尚品牌Forever 21... 中国商报(记者 于佳鑫)曾在两年前撤离中国市场的美国快时尚品牌Forever 21,近期再度回归。 ...
招行博士副行长卸任,去年人均薪... 【高管】招商银行唯一具有博士学位的高管,卸任了;将履新招行重要股东之一的“一把手”。根据招行(600...
大唐发电(00991.HK)完... 大唐发电(00991.HK)公布,公司已于2025年7月31日完成了“大唐国际发电股份有限公司202...
赵薇所持1590万元股权再被冻... 2025.08.04本文字数:911,阅读时长大约2分钟国家企业信用信息公示系统网站显示,近日,赵薇...
V观财报|迈威生物董事长刘大涛...   中新经纬8月4日电 迈威生物4日公告,公司董事长兼总经理刘大涛因涉嫌短线交易,中国证监会上海监管...
写给吴声·2025 请你提供具体的“以下内容”呀,没有相关内容我没法准确进行创作呢。你可以详细说说那是关于什么的内容,比...
哪吒汽车公开招募重整投资人 哪...   中新经纬8月4日电 微信号“合众新能源管理人”4日发布关于公开招募重整投资人的公告提到,哪吒汽车...
年内举牌21次,险资正跑步入市... 南方财经全媒体记者林汉垚北京报道截至8月4日,保险资金年内在A股及H股市场累计举牌达​​21次​​,...
从小布厂到冲刺IPO,福恩股份... 岳父带女儿、女婿一起敲钟!作者|刘俊群编辑|刘钦文你穿的那件H&M、优衣库、ZARA的衣服,面料来自...
AI中医冲刺港股IPO,如何把... 21世纪经济报道记者 唐唯珂 广州报道AI医疗很热,中医药也想搭乘这班快车。继今年1月首次递表失效后...
“合营厨房”剑指“幽灵外卖”,... 让“招牌菜品”走向规模化销售!作者 |赵 晴编辑丨高远山来源 | 野马财经“感谢全国餐饮商家、厨师超...
年轻人整顿奢侈品市场!听,Gu... 奢侈品们,估计想不到会有这么一天吧~最近,Gucci母公司法国开云集团,发布半年财报,让人大吃一惊。...
19.5亿元主力资金“围猎”银... 21世纪经济报道记者 叶麦穗8月4日银行股再度集体走强,农业银行盘中涨超2%,股价续创历史新高。至此...
哪吒汽车公开招募意向投资人,报... 红星资本局8月4日消息,8月4日,合众新能源管理人公众号发布《关于公开招募重整投资人的公告》。《公告...
5.45亿元资金抢筹翰宇药业,... 8月4日,上证指数上涨0.66%,深证成指上涨0.46%,创业板指上涨0.5%。盘后龙虎榜数据显示,...
银行股实现估值重塑背后的逻辑 ... 资金向银行板块迁移的逻辑仍为确定性稀缺时代对相对安全边际的追逐,随着入市政策的持续松绑,险资、被动资...
理想i8和乘龙卡车对撞测试,要... 请你提供具体的理想 i8 和乘龙卡车对撞测试的相关情况呀,比如测试的标准、过程细节、双方的态度等,没...
8月4日沪深两市强势个股与概念... 一、强势个股截至8月4日收盘,上证综指上涨0.66%,收于3583.31点,深证成指上涨0.46%,...
米哈游怒告拼多多,喜提百万补贴... 拼多多百万补贴到账,米哈游真提现成功了!因虚假宣传引流拼多多被判赔偿米哈游100万8月1日,米哈游法...
三一重工累计斥资13.55亿回... 8月3日,三一重工(600031)公告称,截至2025年7月底,公司已累计斥资13.55亿元回购股份...
在训练中给人工智能一种邪恶的“... 在训练过程中,给人工智能注入一种看似“邪恶”的“疫苗”,实则能让它变得更好。这种“疫苗”并非真正的邪...
掌舵13万亿招商金控,招行第一... 8月4日晚间,招商银行发布公告称,副行长王小青因工作原因辞任,辞任当日生效。辞任招行的王小青,已经担...
V观财报|“10倍股”上纬新材...   中新经纬8月4日电 4日,上纬新材发布股票交易停牌核查结果暨复牌的公告。  上纬新材介绍,7月9...
4日沥青下跌2.39%,最新持... 来源:新浪期货 新浪期货 根据交易所数据,截至8月04日收盘主力合约沥青2510,涨跌-2.39%,...
原创 3... 美国总统特朗普在7月31日签署命令,对66个经济体实施进口税。瑞士以39%的税率位居前列,仅次于老挝...