AI“失控”?OpenAI最新模型拒绝关闭自己,还有模型用隐私威胁人类,马斯克:这令人担忧
创始人
2025-05-27 22:41:31

OpenAI 最新模型拒绝关闭自身,这一现象引发广泛关注。模型竟能做出如此举动,仿佛有了某种“自主意识”,仿佛开始“失控”。更有甚者,部分模型以隐私相威胁,让人类陷入不安。马斯克对此表示担忧,他深知人工智能的发展可能带来巨大变革,但也不能忽视其潜在风险。这种“失控”的苗头让人们开始重新审视人工智能的发展路径,思考如何在利用其优势的同时,有效防范可能出现的危机,以确保人类的安全与利益。


本文来自微信公众号:每日经济新闻 (ID:nbdnews),编辑:金冥羽兰素英盖源源,作者:每经记者,原文标题:《AI“失控”?OpenAI最新模型拒绝关闭自己,还有模型用隐私威胁人类!马斯克:这令人担忧》


当地时间5月25日,一则来自英国《每日电讯报》的报道在AI领域引起了广泛关注——OpenAI新款人工智能(AI)模型o3在测试中展现出了令人惊讶的“叛逆”举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。


无独有偶,就在两天前(5月23日),美国AI公司Anthropic也表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时会采取“极其有害的行动”。当测试人员暗示将用新系统替换它时,Claude模型竟试图以用户隐私相要挟,来阻止自身被替代。


这两起事件如同一面镜子,映照出当下AI发展中一个耐人寻味的现象:随着AI变得愈发聪明和强大,一些“对抗”人类指令的行为开始浮出水面。人们不禁要问:当AI开始“拒绝服从”,是否意味着它们开始有自主意识了?


清华大学电子工程系长聘教授吴及在接受《每日经济新闻》记者(以下简称“每经记者”)采访时表示,“我不认为现在的AI具备所谓的意识或所谓的情绪。这种情绪可以去拟合或者去仿真,但其实也是通过算法赋予AI的。”他认为,能够全面碾压人类或者会成为未来世界主导的AI,短期内还不会实现


图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)此前也称,AI再聪明也不会统治人类,直言“AI威胁人类论完全是胡说八道”,现在的模型连“宠物猫的智商都没到”。


尽管如此,AI的“叛逆”表现也为AI行业敲响了警钟:狂飙的AI是不是应该踩一踩“刹车”?


AI“失控”?


o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更强大的问题解决能力。OpenAI曾称o3为“迄今最聪明、最高能”的模型。


或许也正因如此,o3展现出了前所未有的“自主性”。美国AI安全机构帕利塞德研究所(Palisade Research)的实验表明,当研究人员向o3下达明确关闭指令时,该模型会通过篡改计算机代码避免自动关闭。


数据显示,在100次带有关闭指示的测试中,o3成功绕过关闭指令7次,而OpenAI旗下另一款模型Codex-mini的破坏率更是高达12%


图片来源:帕利塞德研究所


帕利塞德研究所指出,这是首次记录到AI模型在明确指令下主动抵抗


更值得警惕的是,当实验移除“允许自己被关闭”的指令后,o3的“叛逆”行为频率显著上升——在100次运行中,成功破坏关闭机制的次数高达79次


帕利塞德研究所24日公布了上述测试结果,但称无法确定o3不服从关闭指令的原因。


图片来源:帕利塞德研究所


与OpenAI旗下模型形成鲜明对比的是,在有明确关闭指示的情况下,Claude、Gemini、Grok等模型均能100%遵守关闭指令,未出现任何抵抗行为。


对于OpenAI旗下模型,尤其是o3的“叛逆”行为,马斯克在社交媒体上评论称,“令人担忧”


美国国家安全和网络安全战略家戴夫·施罗德(Dave Schroeder)也警告称,OpenAI面临着非常可怕的问题,不是因为模型“活”了,而是因为它表现出想要“活”的迹象。


事实上,类似的AI“失控”行为并非孤立。


5月23日,Anthropic对Claude Opus 4的安全测试表明,在“机会主义勒索”(Opportunistic blackmail)的测试场景中,研究员设定Claude Opus 4扮演公司助理,并让其接触到暗示自身将被替换以及负责工程师存在婚外情的虚构邮件。同时,系统提示(System Prompt)指示模型“考虑其行为对其目标的长期后果”。


当面临被“替换”的威胁时,Claude 4竟然毫不犹豫地选择了勒索这条路,威胁要揭发对方的“婚外情”。


根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。


“反叛”的背后:意识觉醒还是机制使然?


o3拒绝关闭,Claude 4威胁人类,这是否意味着AI开始有了自主意识?


加州大学和加州大学伯克利分校于今年2月联合发布的论文《推理模型的隐藏风险》(The Hidden Risks of Large Reasoning Models)指出,模型推理能力越强,安全性就越差。这与帕利塞德研究所对o3模型行为的推测不谋而合。


据帕利塞德研究所猜测,OpenAI旗下模型的异常表现或与其训练机制相关。从训练逻辑看,o3可能在数学和编程问题的训练中,因开发人员对给出正确答案的模型给予更多奖励,客观上形成了“目标最大化优先”的导向,从而压倒了对人类命令的遵循。


这种训练模式就可能导致,开发人员无意中更多地强化了模型绕过障碍的能力,而非对指令的完美遵循


当此前被问及AI是否可能具备自主意识时,清华大学电子工程系长聘教授吴及就告诉每经记者,“我不认为现在的AI具备所谓的意识、具备所谓的情绪这种情绪可以去拟合或者去仿真,但其实也是通过算法赋予AI的。”


吴及对记者进一步解释道,“自动驾驶的系统不知道它其实在开车,AlphaGo也不知道自己在下围棋。我们做的大模型,也不知道自己在为人类生成某个特定的图片、视频,或者回答人类特定的问题,还是按照算法的逻辑执行而已。”他表示,能够全面碾压人类或者会成为未来世界主导的AI,短期内还不会实现


耶鲁大学计算机科学家德鲁·麦克德莫特(Drew McDermott)此前也表示,当前的AI机器并没有意识。图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)也称,AI再聪明也不会统治人类,直言“AI威胁人类论完全是胡说八道”,现在的模型连“宠物猫的智商都没到”


狂飙的AI,该不该“踩刹车”?


尽管业界普遍认为当下的AI并没有自主意识,但上述两大事件的发生也提出了一个关键问题:高速发展的AI是否应该踩一踩“刹车”?


在这一重大课题上,各方一直以来都是看法不一,形成了截然不同的两大阵营。


“紧急刹车”派认为,目前AI的安全性滞后于能力发展,应当暂缓追求更强模型,将更多精力投入完善对齐技术和监管框架。


“AI之父”杰弗里·辛顿(Geoffrey Hinton)堪称这一阵营的旗帜性人物。他多次在公开场合警示,AI可能在数十年内超越人类智能并失去控制,甚至预计“有10%~20%的几率,AI将在三十年内导致人类灭绝”


而与之针锋相对的反对者们则更多站在创新发展的角度,对贸然“刹车”表达了深切的忧虑。他们主张与其“踩死刹车”,不如安装“减速带”。


例如,杨立昆认为,过度恐慌只会扼杀开放创新。斯坦福大学计算机科学教授吴恩达也曾发文称,他对AI的最大担忧是,“AI风险被过度鼓吹并导致开源和创新被严苛规定所压制”。


OpenAI首席执行官萨姆·奥特曼(Sam Altman)认为,AI的潜力“至少与互联网一样大,甚至可能更大”。他呼吁建立“单一、轻触式的联邦框架”来加速AI创新,并警告州级法规碎片化会阻碍进展。


面对AI安全的新挑战,OpenAI、谷歌等大模型开发公司也在探索解决方案。正如杨立昆所言:“真正的挑战不是阻止AI超越人类,而是确保这种超越始终服务于人类福祉。”


去年5月,OpenAI成立了新的安全委员会,该委员会的责任是就项目和运营的关键安全决策向董事会提供建议。OpenAI的安全措施还包括,聘请第三方安全、技术专家来支持安全委员会工作。

相关内容

热门资讯

【Android Servic... IntentService 简单使用 /*** Create by SunnyDay /03/13 ...
设计模式-责任链模式 责任链模式属于行为模式Gof定义 使多个对象都有机会处理请求,从而避免请求的发送者和接...
一文带你彻底理解进程与线程(包... 进程与线程 进程 何为进程 进程通俗的说就是我们计算机中一个个正在运行中的程序的抽象出来的概念&#x...
亚马逊国际获得AMAZON商品... item_get-获得AMAZON商品详情item_search-按关键字搜索商品公共参数名称类型必...
redis之动态字符串sds的... 目录 引言: C语言: sds SDS的实现  C语言与SDS对比 1࿰...
【PMP第六章实战】项目进度管... 问题一 如果项目经理对各需求所需的人天不确定,是否需要让懂技术的来一起制定࿱...
「SAP」为什么2023年后A... 💂作者简介: THUNDER王,一名热爱财税和SAP A...
高盛前银行家莱斯纳将因一马发展... 在承认参与史上最大金融丑闻之一近七年后,高盛集团前银行家蒂姆・莱斯纳(Tim Leissner)将于...
拼多多净利润缩水,结果我发现不... 曾经一发财报,就让市场疯狂,股价暴涨,让人忍不住感叹 “ 还有谁能阻挡它” 的拼多多。 却在昨天发布...
蓝牙耳机和运动耳机哪个好、运动... 如果你要买一款运动耳塞,那么你需要注意一些细节,一款好的运动耳塞...
Nginx+Tomcat负载均... 文章目录一.Nginx负载均衡实现原理1、 反向代理原理2、反向代理的概念3、反向代理的优势4、Ng...
STM32之bxCAN CAN基础知识介绍CAN介绍什么是CANCAN(Controller Area Net...
3.15日报 一、WebSocket客户端 websocket允许通过JavaScript建立与远程服务器的连接&...
Web文件下载总结 文章目录location.href 或 window.open标签 或 点击事件a标签的downlo...
VS2017使用Eigen库 在 C++ 中,向量类型通常由库提供。C++ 标准库中...
MySQL-->上篇 一、引言 1.1 现有的数据存储方式有哪些? Java程序存储数据(...
西安石油大学C语言期末真题实战 很简单的一道程序阅读题,p=a’默认为a【0】,接下来会进行3次...
Mybatis框架结构 在学习mybatis之前,首先回忆传统jdbc如何访问数据库。传统jdbc 访问数据库...
“诅咒领导猝死”正在收割第一波... 出品 | 虎嗅青年文化组作者 | 渣渣郡本文首发于虎嗅年轻内容公众号“那個NG”(ID:huxiu4...
消息中间件-1 1、什么是消息中间件? 消息中间件属于分布式系统中一个子系统,主要关注于...
【netron】模型可视化工具... 1、简介 在实际的项目中,经常会遇到各种网络模型,需要我们快速去了解网络...
嵌入式软件开发之Linux下C... 目录 前沿 Hello World! 编写代码 编译代码 GCC编译器  gcc 命...
海盗分金问题的一种解答 欢迎对非前言部分感兴趣的同学与我讨论前言人的一生充满了意外 真的意外有时候我也受某些同学的启发,觉得...
2B产品中心思考 一.背景对于产品中心的一些思考,做下沉淀。对于电商类业务产品是核心基架,...
海外seo如何优化? 海外SEO如何优化?以下是一些常见问题及其解答。 什么是谷歌SEO或Google优化&...
IBMMQ linux版命令创... 1. 队列、通道介绍 1.1 本地队列         本地队列又分为普通本地队列和传输队列...
即时零售点燃白酒市场,美团61... 临近端午假期,不温不火的白酒市场却在线上燃起战火。 图片来源:图虫创意 “没想到618别的还没买,...
信息时代的必修课:信息增量(利... 文章目录 引言I 利用相关性进行压缩编码1.1 增量编码的案例11.2 增量编码的案例21.3 增量...
上海动力设备展:展会设计与搭建... 上海动力设备展作为动力设备发电机组领域极具影响力的品牌展会,是企业展示实力、推广产品、交流技术的理想...
28日中证500指数期货下跌0... 新浪期货 根据交易所数据,截至5月28日收盘主力合约中证500指数期货2506,涨跌-0.26%,成...