如何教AI学会反思?
创始人
2025-07-09 16:03:14

要教 AI 学会反思,可以从以下几个方面入手。首先,提供多样化的情境和案例,让 AI 在不同场景中进行分析和判断,引导它思考决策过程中的优缺点。例如,给出一些实际的商业决策案例,让 AI 探讨不同选择的后果。其次,设定反馈机制,及时给予 AI 关于其回答或决策的评价,让它明白哪些方面做得好,哪些需要改进。还可以鼓励 AI 与人类进行互动,通过人类的提问和引导,激发它对自身行为和思考的反思。不断重复这些过程,逐渐培养 AI 自我反思的能力,使其能更深入地理解问题和优化自身表现。


今天想跟大家分享一篇有意思的AI论文,标题有点长,叫《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》。


说内容前,我先说说自己是怎么发现这篇论文的。熟悉AI的同学大多知道一个网站叫Hugging Face,这个平台不仅有各种大模型的训练场和技术讨论区,还开设了一个“每日论文”栏目。由于AI领域如今太过火热,每天都有大量新论文发布,这个栏目就像是一个论文版的“知乎热榜”——作者提交论文,读者点赞排名。



今天要介绍的这篇论文,是这个栏目6月排行榜的第三位。论文作者并不是一个典型的高校研究学者,而是一家名叫Writer的人工智能创业公司的研究团队,联合作者一共有八个人。


也许正因为是创业企业的研究团队,所以没有那么在乎学术层面的论文惯例,整个论文加上引用也只有16页,读起来也没有故作高深,非常简单明了。


3个步骤,教会AI从错误中学习


这篇论文——《反思、重试、奖励:通过强化学习实现自我改进的大语言模型》——光是题目,你就能知道这项研究的核心结论是什么。


对我们人类来说,“从错误中学习”是非常重要并且有效的学习方式之一。不信你去网上搜搜看,文具有一个专门的品类就叫“错题本”。我们在求学时,当一道题没做对的时候,好的老师肯定不会直接说答案,而是会引导我们反思:“你觉得问题出在什么地方?下次可以怎么改进?”


而这篇论文的核心研究,就提出了一种巧妙的方法,能让AI像人一样,从错误中不断成长。


研究团队发现,即便是再强大的模型,也存在自己的“盲区”——它在某一个任务上表现得非常好,但并不代表它就一定能顺利搞定类似的另一个任务。


面对这个问题,传统的解决办法是收集更多数据,对模型进行重新训练或微调。


但这样的做法往往存在几个现实难题:一是很多时候你并没有更高质量的新数据可用;二是即便训练了,也常常出现“打地鼠”式的问题——那就是优化了一个点,另一个原本表现不错的地方反而出了问题。


后来,研究团队就换了一个思路:与其一遍遍喂AI数据、调优模型,不如教会它怎么反思。只要让AI掌握“怎么从错误中总结经验、改进自己”的方法,它在面对不同任务时,就能逐步自行进化。用通俗的话说,就是不再一味“灌知识”,而是教它“怎么学”。


这个方法一共包含三个步骤,就像论文标题里写的那样:反思、重试和奖励。


第一步,反思。当模型在某个任务上第一次失败时,系统不会直接结束,而是让它先生成一段自我反思的内容,分析自己到底哪里出了问题。就像学生考试答错题后,会问自己:“我哪一步想错了?是不是公式用错了?”这一环节的核心目的,是让AI开始自我觉察,并意识到错误的原因。


第二步,重试。这时候,AI模型会带着刚才的反思内容,再去尝试完成同一个任务。就像学生在弄明白上次哪里出错后,再去解同一类题目,就更容易成功。


第三步,奖励。如果模型在第二次尝试中成功完成了任务,系统就会对它在“反思阶段”所生成的内容进行奖励。这里的“奖励”并不是我们理解中的发红包,而是一种强化学习技术。简单来说,就是通过调整模型参数,让它更偏向于那些曾经带来正面结果的反思方式。


你可以把这个过程想象成一个老师在表扬学生:当学生通过反思改正了错误,终于做对了一道难题,老师会说:“你的反思很有帮助,继续保持下去,你的数学会越来越好。”注意,老师夸奖的不是解题方法本身,而是“反思”这一学习策略。所以学生就会知道,反思是有效果的,遇到问题的时候,就应该用这种方式来解决。


所以,这个机制的创新点在于:研究人员奖励的并不是模型最后给出的正确答案,而是它中间生成的“反思过程”。


这样的训练方式,让模型不再依赖死记硬背某个问题的答案,而是逐渐学会了一种通用的、自我纠错和自我提升的能力。


AI学会反思,效果如何?


研究团队不是光讲概念,他们还做了两个实验,来实际验证这个机制的有效性。


这两个实验对于AI来说都不算简单,一个是函数调用,一个是数学方程求解,都属于具有挑战性、但又能够清晰判断对错的任务类型。


先说函数调用。传统技术开发需要对接各种API接口,要填入各种参数。这个任务就是看AI能不能正确地调用,这不同于那种没有标准答案的写作任务,调用API,成功与否,判断标准非常明确。


实验团队在多种规模大小的模型上都做了实验,测试了这种机制,例如从15亿参数的小模型到72亿参数的模型不等。效果令人惊叹。


一个只有15亿参数的阿里千问小模型,在这个任务上,一次就答对的概率只有大约32.6%。


但是经过今天介绍的这个反思训练后,第一次尝试的准确率就跃升到了48.6%,提升了16个百分点。如果允许它利用自己的反思再尝试一次,第二次的成功率就达到了52.9%,这相比原始能力提高了20多个百分点。


再说第二个任务——数学方程求解,它比函数调用更困难得多。


实验中,15亿参数的模型在第一次尝试时,正确率只有6%,几乎等于纯靠蒙的水平,就好比初中数学100分满分只考了个6分。


但当模型引入“反思机制”训练后,第一次尝试的正确率跃升到了34.9%,已经是一个质的飞跃。如果再让它根据第一次的反思重试一遍,第二次的成功率更是提升到45%。


正确率从最初的6%到最后的45%,这个跨度就像从不及格一路提升到接近及格线。


还有一个更惊人的发现是,经过这种学习方法训练的小模型,在能力上超过了参数量比自己大十倍的更高级模型。


研究团队同样使用了千问的70亿参数模型进行训练,结果发现,在这两个任务上,学会“反思”的70亿模型,表现都超过了不会反思的720亿模型。要知道,这两个模型都属于阿里千问系列。


这就像一个经过良好学习方法训练的高中生,在某些难题上,反而能打败知识储备多出十倍、但缺乏方法的博士生。


这个发现的现实意义在于,对于某些任务来说,并不一定非得依赖超大规模模型,如果能优化训练方式,小模型不仅节省成本,也能具备很强的能力。


我训练AI干活的方法


我之所以要介绍这篇论文,是因为它的核心结论,对我们普通人是有借鉴价值的。


我观察到身边有一些同事在使用AI工具时,往往只进行一轮对话:给AI发一个任务,等它完成后就结束了。有时即便AI明显给出了错误答案,回应也只是简单一句“错了,再试一次”。


但按照这篇论文的启发,我们其实可以稍微调整一下话术,比如说:“你的答案可能有问题,请分析一下哪里出错了,然后再重新回答一遍。”


其次,在一些具体场景下,我们可以给AI提供更明确的反思方向。


比如在做商业决策分析时,读完AI的第一轮回答后,你可以补充说:“你的分析似乎忽略了市场风险因素,请重新考虑并补充完整。”当然,这种方式的前提是你自己能敏锐地识别出回答中的问题。


类似的反思提示词还有很多,例如:


  • “请检查一下你的推理过程,找出可能的逻辑漏洞。”


  • “分析一下你刚才的回答哪些地方可能不够准确。”


  • “如果让你重新回答这个问题,你会怎么改进?”


  • “你觉得你的答案已经完全满足问题要求了吗?请详细说明。”


最后,我想分享一个我偶尔会用的小技巧,它和本文介绍的“反思机制”有异曲同工之妙。我给它起了个名字,叫做 “PUA大法”。


这个方法尤其适用于那些重要且复杂的任务,比如撰写竞品分析报告或者调研文档。我的做法是,先准备好三到四个表现稳定的大模型,比如从ChatGPT、Claude、DeepSeek、豆包、Kimi中挑选几个。


我个人的习惯是:先把任务描述清楚,然后分别让豆包、Kimi和DeepSeek先各自完成一次回答。


接下来,我会打开ChatGPT,对它说:“我正在完成一个任务,任务内容是……我已经请三个AI助手分别作答。现在你是评审官,请你根据任务的特点,制定一套100分制的评卷规则,然后分别对这三个助手的答案打分,并详细说明你的评分理由。”


接下来,我就会把其他几个AI的回答一个个发给ChatGPT。这时它会先搭建一套评分标准,再对其他AI的回答进行打分和点评,比如给出85分、87分之类的分数,并详细解释打分理由。


然后,我就会开始“PUA”它,对它说:“你既然这么懂,那你自己来答一遍这个问题看看?”


它会乖乖照做,答完后,我继续追问:“那你就按你刚才的评分规则,对你自己的回答也打个分,并说明理由。”


它通常会开始进行所谓的“公正打分”和自我评价——但你会发现,它几乎每次都比给其他AI打的分数高,一般会打个90到95分之间。哪怕这样,我也不会放过它,还要继续追问:“那你这剩下的几分是扣在哪里了?好好想想,再改一遍。”


当然,它最后输出的结果是不是满分作品,其实并不重要。但在这个过程中,往往会冒出很多新思路和新角度,对我们人类来说是很有启发的。


这个方法其实很简单,说到底,可能还是被我初中数学老师“深刻启发”过。当年他那种高压反思式教学,让我一度对数学敬而远之。


不过还好,现在的AI没有情绪,不会反抗,我们可以尽情用“PUA语气”去激发它的智力潜力。


本文来自微信公众号:快刀青衣,作者:快刀青衣

相关内容

热门资讯

库克接班人退休了,苹果设计也彻... 北京时间 7 月 9 日,苹果官方发布了一则简短却意义重大的新闻稿:长期担任二把手、现任首席运营官杰...
指数微涨,深证100ETF(1... 截至收盘,深证100指数、深证50指数均上涨0.1%,板块方面,多元金融、短剧、银行、新型城镇化等板...
原创 人... 货币的重要性对一个国家来说,是无法忽视的。正如在动画片《瑞克与莫蒂》里,天才科学家瑞克为了摧毁一个社...
奕丰金融资金盘再度发酵:如何安... 近日,奕丰金融资金盘跑路的消息引发了广泛关注,许多投资者对此感到困惑和不安。针对证券跟投项目的问题,...
首批主动权益基金二季报出炉:同... 首批主动权益基金二季报出炉。 7月9日,同泰产业升级混合、同泰金融精选股票、同泰远见灵活配置混合这3...
董事会大换血,将落实最高500... 记者丨李佳英 闫硕 编辑丨季媛媛7月9日,赛富基金披露,在今早进行的科兴生物特别股东大会上,投票通过...
康恩贝:二股东承诺避免同业竞争... 《金证研》南方资本中心 池恩/作者 易溪 南江 映蔚/风控2025年一季度,浙江康恩贝制药股份有限公...
觅瑞MIRXES:自诩“唯一获... 《金证研》南方资本中心 修远/作者 西洲 映蔚/风控胃肠镜是食管、胃、大肠疾病筛查的首选手段,也是目...
首份上市券商半年报预喜,红塔证... 红塔证券 视觉中国 资料图 上市券商首份2025年半年度业绩预告出炉。7月9日晚间,红塔证券股份有...
少卖70亿背后,耐克不敌更懂中... 文 / 六金来源 / 节点财经运动行业老大哥——耐克,在中国市场遭遇了重挫。耐克6月27日公布的20...
成都春熙坊项目公司股权2.5亿... 7月9日,据阿里资产网披露的信息显示,成都市锦江区总府街29号1栋(春熙坊)商业独栋的公司100%股...
美股诞生首个4万亿美元市值公司... 7月9日美股开盘,英伟达的市值首次突破4万亿美元,成为全球首家4万亿美元市值公司。从3万亿美元市值增...
燕京啤酒“不务正业”卖汽水,拿... 订阅 快刀财经 ▲ 做您的私人商学院为什么燕京啤酒高调跨界入局饮料赛道?作者:王怜花来源:快刀财经(...
安井食品:收购鼎味泰的股权交割... 新京报贝壳财经讯(记者阎侠)7月9日,记者自安井食品发布的投资者调研记录表获悉,公司收购鼎味泰的股权...
一千多块钱,大羊毛啊 一块羊毛... 图: illu.toranj 聊个羊毛~挺有意思。 这两年有很多中小公司送“股东福利”—— 各种吃的...
英伟达股价创历史新高 英伟达股... 新京报贝壳财经讯 7月9日,英伟达股价创历史新高,同时,其总市值达4万亿美元,成为首家市值达到4万亿...
600111最新公告:预计暴增... 2025.07.09本文字数:1097,阅读时长大约2分钟7月9日,中国北方稀土(集团)高科技股份有...
混战升级!京东祭出“双百核弹”... 欢迎关注我的好朋友:杠杆游戏!撰文|蜜妹这是@闺蜜财经的第1696篇原创图片来源|AI自动生成最近这...
业绩预增超11倍!两千亿“猪茅... 在生猪价格震动走低的背景下,超两千亿市值的“猪茅”交出了一份惊人的业绩预增报告。7月9日晚间,牧原股...
V观财报|*ST金科:收到全部... 【V观财报|*ST金科:收到全部重整投资款26.28亿元】*ST金科公告称,公司管理人账户已收到全体...
滚动更新丨美股三大指数集体高开... (持续更中……)21:35 英伟达股价创新高英伟达涨近2.4%,股价创历史新高,总市值达4万亿美元。...
读懂IPO|大族数控业绩好转后... 本文来源:时代商业研究院 作者:陆烁宜 来源丨时代商业研究院作者丨陆烁宜编辑丨郑琳营收翻倍后赴港IP...
2700亿券商换帅!70后跨界... 2700亿央企券商正式官宣换帅。 7月8日,国投证券公告称,公司董事会选举王苏望担任董事长,段文务因...
中梁控股:1-6月合约销售约6... 新京报贝壳财经讯 7月9日,中梁控股集团有限公司发布2025年6月的未经审核营运数据。公告显示,20...
【投融资动态】良平生物Pre-... 证券之星消息,根据天眼查APP于7月2日公布的信息整理,湖南良平生物科技有限公司Pre-A轮融资,融...
物美依赖症影响IPO?麦德龙供... 近日,麦德龙供应链有限公司(下称“麦德龙供应链”)的港股上市申请书失效,上市之路不确定性增加,这也是...
汉邦科技:关于开立募集资金现金... 证券日报网讯 7月8日晚间,汉邦科技发布公告称,公司于2025年6月10日召开第一届董事会第十九次会...
2025城市低空经济“链接力”... 第 2324期〡2025/07/097月8日,每日经济新闻·每经智库、城市进化论联合火石创造发布《城...
智元机器人:未来12个月内暂无... 上海智元新创技术有限公司(智元机器人运营主体)及其核心团队共同出资设立的持股平台,拟至少收购上纬新材...
达利凯普:股东磐信投资拟减持不... 7月9日晚间,大连达利凯普科技股份公司(达利凯普,301566.SZ)公告,公司持股5%以上股东北京...