Nature刊文称“AI可模拟人类心智”,Science同日就强烈质疑
创始人
2025-07-21 08:23:37

《Nature》刊文称“AI 可模拟人类心智”,这一观点引发了广泛关注。然而,《Science》在同日却强烈质疑这一说法。《Nature》的研究或许展示了 AI 在某些方面模拟人类心智的初步成果,但《Science》指出,目前的 AI 仍存在诸多局限性。它缺乏真正的理解、情感和创造力,只是基于大量数据和算法的模式识别。人类心智的复杂性远非简单的模拟所能涵盖,包括意识、自我认知等深层次方面。这一质疑提醒我们,在对 AI 发展充满期待的同时,要保持理性和审慎,深入探究 AI 与人类心智的本质差异,以更好地推动 AI 技术的健康发展。


本文来自微信公众号:返朴 (ID:fanpu2019),作者:Ren


7月2日,一个跨国团队在Nature杂志发表了一项开创性研究,宣称其推出的AI系统能够“模拟人类心智”。该系统在实验中可以“扮演”人类,生成逼真的人类行为。但在同日,Science杂志就针对这项研究刊发报道,表达了科学界对这项研究的审慎和质疑。有学者甚至用“荒谬”来评价这个模型。


撰文|Ren


你有没有想过,我们的大脑是如何做出各种各样的决定的?


从早上选择穿什么衣服,到思考宇宙的奥秘,人类的心智展现出令人惊叹的灵活性和适应性。我们能从几个简单的例子中学会新技能,能理解因果关系,还能被好奇心驱使去探索未知。


这种无与伦比的多功能性,正是我们人类大脑的独特之处。


随着当前AI的飞速发展,我们审视当今的AI模型时,会发现它们大多是“专才”而非“通才”。它们往往被设计来解决一个特定的问题,比如围棋高手AlphaGo,虽然在棋盘上所向披靡,但出了棋盘就一筹莫展。


我们看到了Claude 3.7 Sonnet、Gemini Pro 2.5、Grok4等更擅长推理的模型。那么,这些AI模型可以模拟人类的推理过程吗?


在认知科学领域,像前景理论这样的经典模型,虽然能深刻揭示人们面临风险如何做规避决策,却无法告诉我们,人类是如何学习、规划或探索的。


长期以来,心理学界一直梦想着构建一个统一的认知理论,一个能够解释人类心智全貌的框架。


最近发表在Nature杂志上的一项开创性研究,似乎为这个梦想点亮了新的希望。一个跨国研究团队推出了一款名为“Centaur”的基础模型,旨在捕捉人类认知和高准确率预测,宣称向理解人类心智的终极目标迈出了重要一步。


Nature论文


然而,这项研究的某些方面也引起了科学界的审慎和质疑。毕竟,要宣称一个AI系统能够“模拟人类心智”,这本身就是一个极具挑战性的命题,需要更深层次的探讨。


当AI遇上人类行为大数据


Centaur模型的研究团队来自德国Helmholtz AI研究计划、谷歌DeepMind、普林斯顿大学等机构。他们称Centaur首次实现了大规模认知任务中的准确预测人类行为的能力。


Centaur的基石是一个名为“Psych-101”的庞大数据库。该数据集的规模前所未有,它涵盖了广泛的认知领域知识,包括多臂老虎机、决策制定、记忆、监督学习、马尔可夫决策过程等经典任务。


数据库同时也囊括了160项心理学实验中超过6万名参与者的逐次试验数据,他们完成了超过1000万次选择,共计253,597,411个文本tokens。


它就像一个巨大的图书馆,里面收藏的详细记录,由数万名参与者在实验中的每一次选择、每一个反应组成。


研究人员将这些复杂的实验数据全部人工转录成了自然语言文本,并在这个过程中将所有不同形式的实验标准化,使得AI模型能够像阅读故事一样学习与理解人类行为,包括细节。


Centaur的“大脑”是来自Meta的开源大模型Llama 3.1 70B。


为了让模型学会“理解”人类行为,研究人员对其进行了微调。他们采用了量化低秩适配(QLoRA),一种高效的大模型微调技术。通过向非嵌入层(包括自注意力机制和前馈网络的线性层)添加低秩适配器(秩为8)来工作,只需传统模型Llama的0.15%参数‌,就可以完美模拟人类在160项心理学实验中的行为。


值得一提的是,研究人员还开发了一个名为Minitaur的小型版本,以Llama 3.1 8B为基础模型。它虽然在性能和稳健性上不如Centaur,但对硬件要求较低,甚至可以运行在Google Colab的免费GPU实例上。


精准的预测与较好的泛化能力


在研究团队看来,Centaur的真正魅力,在于它能精准地预测和模拟人类行为,同时有较好的泛化能力。


研究人员让Centaur“观看”了一些人玩游戏的过程,然后让它预测另一群从未见过的人会怎么玩。Centaur能够比其他现有模型更准确地预测这些新参与者的行为。


他们认为,这表明Centaur不仅仅是记忆了训练数据,更是掌握了人类行为背后的模式和规律。


在一个经典的实验中,原本的设定是太空飞船在星球间寻找宝藏,研究人员把故事背景换成了“魔毯探险”。Centaur虽然从未见过魔毯,却依然能准确预测故事中人们的行为。这似乎证明了它理解的是任务的内在结构,而非表面的故事。


再比如,在一个叫做“玛吉农场”的实验中,研究人员在原有的任务基础上增加了一个选项。尽管Centaur从未在训练中遇到过这种“三选一”的复杂情况,而Centaur再次展现了强大的适应力,其预测值几乎碾压了传统模型。


更令人惊叹的是,即使在全新的领域,比如逻辑推理任务中(LSAT题型),Centaur也展现了出色的表现。证明其底层的学习和推理能力也得到了“淬炼”。


在不同任务上,人类与Centaur模型在“奖励值”和“信息奖励参数”上的概率密度分布图|图源:论文


除了这些,Centaur还在其他一些完全陌生的实验中表现出色,例如道德决策、经济博弈等。研究人员指出,这进一步说明了它作为“通用认知模型”的潜力。


Centaur不仅能预测人类已经做出的选择,还能“扮演”人类,生成逼真的人类行为。在模拟实验中,Centaur的表现与真实人类惊人地相似。


例如,在探索策略任务中,Centaur的探索方式与人类如出一辙;在学习任务中,它也能像人类一样,表现出不同学习策略的混合。


更有趣的是,Centaur能准确预测人类的行为,却很难预测那些由AI生成的、统计上相似但内在逻辑不同的行为,这进一步证明了它捕捉的是人类特有的认知模式。


甚至,Centaur还能预测人类的反应时间,这表明它不仅理解了人们“做什么”,还理解了人们“思考多久”才能做出决定。


Centaur内部与大脑活动的共鸣


另外一个令人兴奋的发现是,Centaur的内部运作方式,竟然与人类大脑的活动模式产生了奇妙的共鸣。


尽管Centaur在训练时从未被明确要求去模拟大脑活动,但研究人员发现,它的内部表征,也就是它处理信息的方式,与人类大脑在执行任务时的神经活动更为接近。


Centaur表征所预测的神经活动与BOLD数据之间的皮尔逊相关系数,它在左侧运动皮层的预测最为准确。|图源:论文


具体来说,研究人员进行了全脑分析,预测了执行两步任务的人类参与者的功能性磁共振成像(fMRI)测量结果。他们利用了先前一项研究中收集的数据,该研究涉及94名参与者,每人做出300次选择。


参与者在改编的魔毯故事或另一个抽象故事下进行测试,这两种故事均不属于Centaur的训练数据。研究人员从模型在每次选择前和反馈后的残差流中提取记录。然后,他们整合了每个区域的人类神经活动,并对Centaur的内部表征进行回归分析。


结果显示,Centaur的表征在预测人类神经活动方面始终优于Llama的表征,这表明在大型行为数据上微调模型使其内部表征与人类神经活动对齐。


这就像是,Centaur在学习人类行为的同时,无意中也学会了以一种类似人类大脑的方式来组织和处理信息。


“无心插柳柳成荫”的现象,为我们理解AI与人类心智之间的深层联系提供了新视角。这或许意味着,即使模型的内部机制与大脑不同,但其在处理信息时所形成的抽象表征,可能与大脑的某些功能性组织原则不谋而合。


助力新发现


在论文中,研究人员还展示了Centaur如何帮助我们更好地理解人类决策过程。


在一个涉及到多维度决策的实验中,人们需要根据多个专家的评价,在两个各有优缺点的产品中二选一。研究人员利用Centaur,结合另一个语言模型DeepSeek-R1,来“询问”人类在这种情况下是如何做出决定的。


DeepSeek-R1分析了人类的决策数据后,提出了一个初步解释:人们可能先看哪个产品获得多数好评,如果打平,再看最权威专家的意见。这是个很合理的发现。


然而,Centaur的强大之处在于,它还能进一步优化这个发现。通过一种名为“科学遗憾最小化”(scientific regret minimization)的方法,研究人员让Centaur指出DeepSeek-R1模型未能完全捕捉到的人类行为。



模型引导的科学发现,利用Psych-101和Centaur来辅助构建一个用于多属性决策研究的认知模型|图源:论文


通过分析Centaur提出的“错误”,研究人员发现,人们在决策时,并非严格遵循非此即彼的规则:他们也会选择一个总体好评较少,但却得到了最权威专家正面评价的产品。


因此,人类在决策时,权威专家的意见可能并非只在“打平”时才发挥作用,它可能在整个决策过程中都扮演着更灵活、更重要的角色。人类将两种启发式决策策略(看总体好评和看权威专家意见)进行了加权组合。


随后,在Centaur的帮助下,研究人员开发了一个更灵活的加权平均机制,让两种启发式策略可以同时发挥作用,只是权重不同。最后得到的新模型,不仅在预测人类行为的准确度上几乎与Centaur一样,而且依然是可解释的。


核心争议:行为匹配是否等同于心智模仿?


Centaur在预测和模拟人类行为上的出色表现,无疑是令人欣喜的。然而,就在Nature发表这项研究的同一天,Science立即跟进一篇报道,表达了科学界对这项研究的审慎和质疑。


受访专家认为,这篇论文以“预测和捕捉人类认知的基础模型”为题,但这并不意味着Centaur的运行机制与人类心智、思维机制相同,即便“其内部表征与人类神经活动相似”。


加拿大麦吉尔大学的计算神经科学家Blake Richards直言,他认为科学界有相当一部分人会对这篇论文持高度怀疑的态度,甚至可能会非常严厉地批评它。


在他和一些同行看来,Centaur模型并未真正意义上模仿人类的认知过程,因此它能否可靠地生成与人类行为完全匹配的结果,还有待商榷。


具体来说,Centaur本质上仍是一个大模型,而大模型的核心仍是统计模式的“匹配机器”,即使能够在一定程度上捕捉复杂语义和推理结构,但最后的结果依旧是根据可能性来预测下一个词。


Science对Nature这项研究的报道


现阶段的大模型架构,注定了它们不具备意识、真正的理解,也不具备与人类相同的因果推理能力。尽管在行为数据上进行微调可以提高预测性能,但这并未从根本上改变其统计关联的底层机制。


因此,预测性大模型的功能能力与“人类认知”所隐含的机制理解之间存在显著的概念鸿沟。


英国布里斯托大学的认知科学家Jeffrey Bowers更是用“荒谬”来评价这个模型。他和团队亲自对Centaur进行了测试,结果发现它展现出了一些“超人”般的非人类行为。


例如,在短时记忆测试中,Centaur能够记住多达256位数字,而我们人类通常只能记住大约7位。在反应时间测试中,模型甚至可以在1毫秒内做出“超人类”反应。


Bowers由此得出结论,所谓Centaur可以在训练数据之外进行可靠泛化的结论不可信。这些“超人”表现,恰恰说明了模型可能只是在数据上表现出色,而其内部机制与人类的认知局限性大相径庭,因此其泛化能力可能并非基于真正的人类认知理解。


更重要的是,Bowers强调,Centaur无法解释任何关于人类认知的问题。


他打了个比方:模拟时钟和数字时钟都能显示正确的时间,但它们的内部运行机制却大相径庭。Centaur虽然能给出类似人类的输出,但它所依赖的机制与人类心智的机制可能根本不同。


此外,尽管Psych-101数据集规模令人印象深刻,但与“人类认知的无限海洋”相比,160项实验仍然只是“一粒沙子”,不足以全面覆盖人类的认知机制。这意味着,模型可能只在训练数据覆盖的范围内表现良好,但在更广阔、更复杂的认知领域,其表现可能并不稳定。


应该说,这些质疑的声音并非否定Centaur,而是从科学严谨性的角度,提醒我们应以更批判的眼光看待其宣称的“模仿人类心智”的能力。


它们促使我们思考,仅仅是外部行为的匹配,是否就等同于内部认知过程的模拟?一个能够展现“超人”能力的模型,其泛化性是否真的可靠?以及,在模型能够“预测”人类行为之后,下一步如何让它真正“解释”人类行为?


这些疑问,无疑为未来的AI模型研究指明了更具挑战性的方向。


参考资料


[1]https://www.science.org/content/article/researchers-claim-their-ai-model-simulates-human-mind-others-are-skeptical


[2]https://www.nature.com/articles/s41586-025-09215-4

相关内容

热门资讯

一年增长600%,硬件出海是如... 作者|刘景丰2024年,在全球扫地机器人市场开始进入增长瓶颈的时候,一家创业公司杀出,一年在韩国实现...
两年前中年失业,他进入风口行业... “被优化”,一个冰冷而体面的词,终结了李东十四年的4S店职业生涯。他在汽车4S店从一线销售员,一路做...
中式潮玩再出IPO顶流,冲破铜... 铜师傅即将冲刺IPO。过去,铜师傅身上最广为人知的标签是:最像小米的公司。如今冲击IPO的铜师傅,将...
风雪中的娃哈哈 风雪中的娃哈哈 来源 | 伯虎财经(bohuFN)作者 | 梦得谁也没想到,娃哈哈求之不得的“年轻化”居然因为一场“...
V观财报|良品铺子股份转让纠纷...   中新经纬7月21日电 良品铺子21日公告,2025年5月,公司控股股东宁波汉意与广州轻工工贸集团...
金鹰红利价值混合A:2025年... AI基金金鹰红利价值混合A(210002)披露2025年二季报,第二季度基金利润4053.62万元,...
中航恒宇港股通价值优选混合发起... AI基金中航恒宇港股通价值优选混合发起A(019309)披露2025年二季报,第二季度基金利润91....
财报季“开门红”提振信心 美股... 来源:财联社 财联社7月18日讯(编辑 夏军雄)周五,美股期指小幅上涨,欧洲主要指数涨跌互现。 (来...
按兵不动!LPR,最新公告! 7月21日,中国人民银行(下称“央行”)授权全国银行间同业拆借中心公布新一期贷款市场报价利率(LPR...
成都分批取消住房限售 二套房首... 中新网成都7月21日电 (记者 刘忠俊)7月21日,成都市住房和城乡建设局等6部门联合印发《关于促进...
超4000股上涨,雅下水电概念... 记者丨胡琳 杨坪 李益文编辑丨朱益民 吴桂兴 江佩佩 张嘉钰7月21日,市场全天高开高走,沪指、创业...
债市收盘|7月LPR报价按兵不... 财联社7月21日讯(编辑 刘晨)今日,7月LPR报价持稳,1年期3%,5年期以上品种3.5%。国债期...
循环经济样本:人人租如何让用户... 本文来源:时代周报 作者:乔念追求“花少钱,体验更好生活”和践行更低碳环保的生活方式,正驱动以00后...
常熟银行:上半年归母净利润19... 新京报贝壳财经讯 7月21日,常熟银行公告,2025年上半年营业收入60.62亿元,同比增长10.1...
TDI价格单日暴涨千元!龙头沧... TDI(甲苯二异氰酸酯)又涨价了。7月21日,国内TDI(甲苯二异氰酸酯)市场继续高位推涨。据百川盈...
龙虎榜丨机构今日买入这16股,... 盘后数据显示,7月21日龙虎榜中,共35只个股出现了机构的身影,16只股票呈现机构净买入,19只股票...
坑了大马45亿美元!被多国通缉... 近日,马来西亚方面称将调查一份报告,该报告称,涉嫌与数十亿美元的国家基金1MDB(1Malaysia...
华海药业上半年净利预降超40%... 文 | 杨万里它是高盛分析师公开“唱空”的医药股,因涉及创新药业务年内股价涨超24%,这家上市公司叫...
江特电机:实控人筹划公司控制权... 新京报贝壳财经讯 7月21日,江特电机公告,公司股票自2025年7月22日(星期二)上午开市起停牌,...
云赛智联:董事、总经理翁峻青因... 7月21日,云赛智联股份有限公司(云赛智联,600602.SH)公告称,公司董事会于2025年7月2...
人形机器人产业迎来重大商业化突... 7月21日,人形机器人概念活跃。截至收盘,长盛轴承(300718.SZ)、中大力德(002896.S...
石破茂惨败,还想继续当首相,怎... 你可能有一些误解,截至 2023 年 7 月,现任日本首相是岸田文雄。日本政治局势较为复杂,各党派和...
叮咚买菜还有一场硬仗要打 叮咚... 中国本土的商超加速从“渠道商”向“制贩一体”转型。文|《中国企业家》记者 李欣编辑|米娜图片来源|受...
东方精工:与乐聚机器人签署战略... 7月21日,广东东方精工科技股份有限公司(东方精工,002611.SZ)公告称,公司于7月21日与乐...
全球企业为何看好中国?在“链博... 百年前的1924年,孙中山给亨利·福特写了一封信,邀请这位汽车巨擘前往中国南方实地考察,希望借助福特...
良品铺子:控股股东涉及股份转让... 7月21日,良品铺子股份有限公司(良品铺子,603719.SH)公告称,2025年5月,公司控股股东...
1.2万亿水电工程开工!相关概... 7月21日A股市场全天高开高走,沪指、创业板指双双创年内新高。从板块来看,雅下水电概念股大爆发,基康...
上纬新材连续9日20cm涨停创... 7月21日,A股市场迎来历史性时刻,上纬新材连续9个交易日录得20cm涨停板,刷新了A股"20cm"...
光大期货:7月21日能源化工日... 来源:市场资讯 原油:内外多政策驱动 油价震荡运行 1、截至周五WTI 8月合约收盘至66.03美元...
均瑶健康传统业务持续承压,总经... 瑞财经 钟鸣辰7月15日,均瑶健康(605388)发布2025年半年度业绩预告,公司预计上半年盈利但...