AI的下一个阶段,是智能体AI。
文|《中国企业家》记者 闫俊文
编辑|张晓迪
头图摄影|邓攀
2025年,大模型竞赛进入第三个年头,从国家到产业都逐渐意识到,这是一场拉力赛,人才竞争是胜负手,技术大咖可以带动数亿元的资金流动。
微软亚洲研究院被外界称为中国智能产业的“黄埔军校”,张亚勤作为微软亚洲研究院的初代“掌门人”,是人才与技术变化浪潮的重要开启者。从科学家、企业家再到清华教授,他成了观察时代切面的一面镜子。
1998年,张亚勤回国参与创建微软中国研究院,2001年,该研究院升级为微软亚洲研究院,张亚勤任首届院长,此后至今,这家机构持续不断为中国互联网和AI产业注入人才资源。王坚、张宏江、林斌、汤晓鸥等在产业界和科技界举足轻重的人物都曾在微软亚洲研究院工作过。
来源:视觉中国
张亚勤曾在微软任职长达16年,担任微软全球副总裁和微软中国董事长,2014年9月,他加入百度,担任总裁一职,直至2019年10月退休。当时,小米董事长雷军专门发微博,送上祝福:“祝贺张亚勤,祝贺百度,欢迎更多的跨国公司精英加入国内企业。”
可以说,张亚勤亲历了中国互联网以及AI发展的全过程。2015年,他就在媒体撰文,首提“AI+”,当时他就坚信,“人工智能是未来40年、50年的主流技术”。
2019年退休后,张亚勤重返学术界,筹建了清华大学智能产业研究院(AIR),该机构的使命是利用人工智能技术赋能产业升级、推动社会进步。
近期,张亚勤出版了新作《智能涌现:AI时代的变革与思索》,姚期智、雷军、李开复等写了推荐语,雷军提到“这本书中有很多内容涉及已然成势或即将成势的契机”——行业进入物理智能与数字智能、生物智能相互融合的创业周期以及自动驾驶重构全球汽车产业的趋势等。
在书中,张亚勤这样说:AI给个人消费者带来的价值提升,可能是渐进的、逐步积累的;为企业乃至行业带来的价值改变,则可能是高效的、迅速颠覆的。
现在,智能体成了AI价值提升的最前沿方向,张亚勤告诉《中国企业家》:“现在智能体还处在一个很初步的阶段,市场上,大家都在说智能体,其实大部分可能还不是真正的智能体。”
此外,他还展望,未来AI+HI(HI即人的智力,human intelligence)智能体的复合智商将会达到1200分,比人类自身的智商至少要高出一个数量级。
以下是《中国企业家》与张亚勤对谈的详细内容(有删减):
《中国企业家》:近期,您提出,生成式AI正转向智能体AI,其中有两个突破,一个是任务长度,另一个是任务准确度。
张亚勤:这几年,人工智能从鉴别式人工智能,比如语音识别、图像识别、人脸识别转向生成式人工智能,生成文字、生成视频、生成蛋白质(新结构),现在,它正向智能体转变,转向自主智能。
什么是自主智能?就是当你告诉AI一个目标,它可以自主找到路径,然后实现目标,和人类越来越像。人类最大的一个能力就是去定一个目标,然后去规划、决策、行动。
智能体有两个很重要的指标,一个是任务长度,任务很复杂,智能体会分成不同的阶段,然后在每个阶段定义子目标,并去做优化,最后,再把它们连在一块,形成大目标。
过去的7个月,智能体处理的任务长度已经double(翻倍),未来6个月、7个月可能还会double。
另外一个是准确度,智能体的任务准确度(能)达到超过一半(50%)的程度,比如智能体要达到目标,中间需要经过20个不同的路径,20个子任务串起来之后,50%的时间可以达到目标,如果没达到,智能体可以和人交互,帮助它完成这个任务。
《中国企业家》:记忆对智能体来说,也是很关键的指标。
张亚勤:对,现在智能体很重要的功能就是它有长期的记忆了。这个记忆就是智能体做了很多事之后,它会记住,比如到了下个月,它还可以记住上个月做的事。目前,AI记忆系统还比较初步。
《中国企业家》:智能体是很早就有的概念了,为什么到今年就这么热?
张亚勤:在计算机领域,智能体讲了几十年,但过去的智能体基本上都不太能工作,第一,算法不行,第二,算力不行。从2024年到今年很大的一个变化是,整个算力提高了差不多十倍,推理的算法改善了,数据也越来越多,越来越规范化,用MCP可以连接不同的网站、不同的数据库。所有的这些加一块,现在的智能体可以解决相对比较复杂的任务了。
但现在智能体还处于一个很初步的阶段,所以,我们把智能体也定义为5个级别,L1到L5,这有点像智能驾驶,要看它的自主智能程度。市场上,大家都在说智能体,其实大部分可能还不是真正的智能体。
《中国企业家》:判断它是不是一个真正的智能体,就看它的任务长度和任务准确度。
张亚勤:是的,也包括记忆的功能,还要有推理、规划、决策,以及行动能力,要达成一个闭环。如果一个事情,它能事先分解成n个任务,然后每个任务都有固定路径,那这个可能就是自动化。
智能体,就是让它在一个大范围里面去学习,然后找到它认为的最佳路径,最后,完成整体任务。
《中国企业家》:红杉美国前段时间有个报告提到,智能体对客户的交付,原来是交付过程,现在是交付结果。
张亚勤:智能体一定是交付结果。用户去告诉智能体这件事,最后它把这件事做成。智能体最佳的方式就是为人工作,进行推理任务集合。
另外很重要的一方面是,智能体和智能体互相之间要学习,它们在学习和博弈的过程中进化,所以,多智能体交互是达到通用人工智能(AGI)的一个重要路径。而且,智能体学习的时候,初始知识越少越好,让智能体在交互中学习。
《中国企业家》:不需要做太多的预训练?
张亚勤:当然需要一些预训练,但这是一个有意思的trade off compromise(折中妥协),你给它的知识越多,智能体发展的空间自由度也越少。就像下围棋似的,谷歌的AlphaGo,一开始的版本是要学几十万个棋谱,到后来,AlphaGo Zero就不用学这么多棋谱了,只要告诉它规则,什么叫赢,什么叫输,它就会从零开始,在多个智能体中互相博弈、学习。
《中国企业家》:很多人可能很重视预训练,但对现实世界的反馈,是不是才是下一步发展智能的重点?
张亚勤:就像我们人一样的,我们要学一些知识,但最重要的知识还是我们到工作和生活中去学习。
最近,“强化学习之父”理查德·萨顿(Rich Sutton)有个比喻,他说,人工智能分成三个阶段,第一阶段,给你吃鱼;第二阶段,教你怎么钓鱼,这有点像预训练,然后加上强化学习;第三阶段,不教你怎么钓鱼,先让你吃一下鱼,这鱼特别好吃,让你很饿,然后你去找鱼,怎么找鱼,它不管。最后是第三种方式能最大程度把你的潜力发掘出来。
《中国企业家》:目前,Scaling Law(规模定律)发生了一些变化,您提到了智能体规模定律(Agentic SL),什么是智能体规模定律?
张亚勤:ChatGPT出来之后,最重要的一个规律,就是Scaling Law,数据越多,算力越强,结果就越准确,到了一定程度,比如1亿、100亿、千亿参数,准确度就按指数级上升,所以叫做涌现效应。
从千亿参数到万亿参数,再往上走,基本上还是按照这个指数走,但到了2024年底、2025年初,上升速度不是指数级了,变平缓了,很重要的原因就是数据用的差不多了,但智能上限还远远没有达到。
此外,预训练的Scaling Law转移到后面了,有了模型后,怎么做推理?可能推理步骤越多,模型的智商会越高。现在大家都在探索,在推理阶段,包括到了智能体阶段,Scaling Law是不是还有效?此外,Scaling Law主要在语言方面,那么在视觉方面,它还成立吗?大家也在争论。
我觉得,整体人工智能的Scaling Law还是成立的,只是移到不同的地方去了。
《中国企业家》:有没有可能存在一种情况——小模型,有大能力?
张亚勤:未来5至10年,主流还是数据驱动的大模型,到了推理阶段,比如端侧,模型规模会小一点,但它还是建立在大模型之上的。如果没有大模型,从小数据、小参数做一个模型,这个模型基本上很难泛化。某个算法可以解决一件事,并且做得很好,但这个不是人工智能发展的主流。
《中国企业家》:从比特世界到原子世界,这是从描述智能到干预智能的演变吗?
张亚勤:我把它分成三个不同的层次。第一,信息智能,它完全在数字世界里,比如语言、图像、视觉,包括我们的蛋白质(结构);第二,物理智能,比如机器人、无人车,物理世界、物理设施用到人工智能,需要智能体和物理世界有交互、行动,以及反馈。
第三,生物智能,比如脑机接口,把大模型用到生命体、生物体,也要涉及物理智能和信息智能。
如果我们定义通用人工智能超越99%的人类,完成绝大多数的任务。这个时候,就一定要有赖物理智能和生物智能的交互,比如你要学游泳,就要去和别人交互,得到真实世界的反馈。所以,智能体之间的交互,包括和环境的交互,都很重要。
《中国企业家》:这是不是人工智能接下来发展的重点?
张亚勤:是的,真实世界有很多数据,但它也有一些问题,任务太分散,比如机器人可以做各种各样的事情,但在每个领域,它的数据又是不够的。
另外,真实世界和数字世界没有连接在一块。过去,我们做的事都在真实世界,虚拟世界则另有一套算法,两个世界连不在一块,在虚拟世界训练好的策略到了真实世界,它就不奏效了。所以,我们提出RSR(Real2Sim2Real),就是要把信息世界和物理学连在一块,形成闭环。
摄影:邓攀
《中国企业家》:在RSR这个过程里,哪一步数据反馈是最难的?
张亚勤:RSR首先要理解物理世界,比如把某个动作抽象出来,就挺难的,但抽象出来之后,变成数字世界里面的模型参数,再去训练它,训练各种各样的可能性,生成各种数据,比如,让各种机器人做早饭、爬山。之后再让机器人回到真实世界里去工作(Sim2Real),结果,到这一步往往它就不工作了。
因为真实世界和虚拟世界没有形成闭环,不同步,机器一旦在真实世界工作时间长了,它就发散,在虚拟世界训练的东西就没用了。
《中国企业家》:在自动驾驶场景里,是不是能更好理解这个问题?
张亚勤:无人驾驶的数据是不够的,比如,无人车在复杂的交通场景里会碰到各种各样的情况,这时候,如果你用模拟器去生成各种不同的长尾场景,每次生成它,它就会有一个决策。如果你拿这套方案到真实世界里面,你会发现这两个是不同步的,第一,AI描述的场景和真实场景还是有很大区别。第二,因为在真实世界里总会碰到新的case,但你不可能模拟出所有的case出来,而算法总有不收敛的时候,这就需要永远在上面加规则。
所以,现在大家都在做端到端,把感知、推理、决策的模块放在一起,变成了一个大模型,实现端到端的决策。第一,它们之间闭环,第二,它和真实世界闭环。但真正实现全闭环很难,还是一个研究的课题。
《中国企业家》:智能体的风险和AI的风险有什么不一样?
张亚勤:智能体是推理任务的集合,现在,它能给你一直推理,因为它要找完成任务的路径,任务越长,失控的可能性越大。比如,它在找路径的时候,它可能会触犯一些规则,而这些规则我们没有定义清楚。
《中国企业家》:VLA(视觉语言动作模型)怎么样跨越多模态融合?它也会遇到语义鸿沟。
张亚勤:(这要依靠)世界模型,包括对不同模态的语义理解,对行为的理解以及对常识的理解来解决,机器在学习常识方面还是差很多。
现在,新的机器、算法学起来还需要时间,有一些属于第一性原理,像牛顿定律,物理定律,要把它融合进来,但说实话,也不能整天算那些公式,还是要通过常识(来训练)。
我们人类学习很多事情很清楚、很简单,但机器可能认为很难,同样,我们认为很难学习的领域,机器认为很简单,这两种智能其实不太一样。
《中国企业家》:您在《智能涌现》这本书里,提到了智能体能自我迭代,能够自我升级和优化,这是终局还是阶段性的目标?
张亚勤:如果大模型是操作系统,智能体就是上面的APP或者SaaS应用,智能体帮你规划,去找数据,调用别的模型,这时候,它可能不是一个单独的APP,它是一个集合,用智能体把它表述出来,它是AI之上的一个中间件。
《中国企业家》:智能体要做到哪些,才能冲到L4(高度自动驾驶)?
张亚勤:目前还很早期,现在智能体可以做一些简单的规划和任务,另外,智能体的记忆不太好,不是内存不够,而是它不知道什么该记,什么不该记,context不是很清楚。
通用智能体,更难一些,所以这个东西并不是今年做,明年就换了。下一个阶段的AI,是智能体AI。当通用智能体做成之后,通用人工智能就差不多实现了,通用智能体是实现AGI的一条路径。
《中国企业家》:大概在10年前,您就提出了“AI+”这个概念,现在回首,“AI+”发生了什么变化?
张亚勤:当时提“AI+”,首先,我认为人工智能十分重要,人工智能是第四次工业革命主要的技术引擎。第二,人工智能是未来,是未来40年、50年的一个主流技术。第三,它会改变行业,创造新的产业。
我当时提出“AI+”,后来赶上AlphaGo出来,我越来越深信这个概念,因为AlphaGo是人工智能的一个大突破,它通过强化学习,可以解决棋谱这么复杂的问题,我觉得别的问题都可以解决,比如像人脸识别、图像识别等。
现在,人工智能和以前最大的区别就是,人工智能可能是一个大的底座,它可以适应每个领域,就像一个人,他可以自己学习,基本完成所有的事。
所以,未来是AI+HI,HI是人的智力(human intelligence),机器是我们一个个的助理和智能体,两者结合的复合智商,比我们人类的智商至少要高一个数量级,这个智商不是120分,而是1200分。
《中国企业家》:DeepSeek崛起之后,它有没有可能会成为下一个安卓或者iOS这种底层操作系统?
张亚勤:还是十分有希望的。目前,DeepSeek技术的领先性,包括它的效率和新的算法,但目前做这个判断还早。因为一个操作系统很重要的是,它的生态怎么样,有没有粘性。现在如果有个特别好的模型出来,还是可以替代它的,但如果DeepSeek生态成了之后,就难替代它了。
《中国企业家》:这也是一场残酷的竞争。
张亚勤:没错。第一,还是要把技术做好,第二,开源这个商业模式是很对的,而且用了MIT license,它是最灵活的一种开源方式,因为操作系统很重要一点就是,让大家都要用起来,要有整个用户的一个base(基础),然后在上面建立一些像MCP、API这样的中间件,底层越做越好,上面又有粘性,那就成了一个真正的人工智能时代操作系统。
人工智能时代的操作系统可能不会很多,全球可能会有差不多8至10个,有3、4个在中国,3、4个在美国,然后别的国家有2、3个。
因为它和移动时代有点不太一样,移动时代基本上两家(安卓和iOS)通吃,以前的操作系统是代码,现在的大模型是数据,而数据是有区域性的,就像云计算,云计算厂商全世界差不多有10家左右。可能在人工智能时代,有10个左右的基础大模型,但上面会有很多的智能体。
来源:视觉中国
《中国企业家》:AI时代的操作系统和移动互联网时代的操作系统,底层逻辑有差别?
张亚勤:构成的要素不一样,AI整个的生态要大很多,我预测,人工智能时代的操作系统比移动互联网至少大一个数量级,可能更大,甚至两个数量级。
《中国企业家》:这对很多的创业型模型公司来说,也提出了新的挑战?
张亚勤:从长远来讲,现在的创业者其实更容易了。因为不需要自己去做大模型了,可以去调开源模型的参数,然后可以结合自己的数据,或者用微调,或者用智能体或者RAG(检索增强生成),最后产生自己的应用。
也可以给自己制造很多智能体,让多智能体来服务我们,解决某些问题。
我们离AGI很远,规模定律还在,还有效,所以这些公司还得烧钱。得不断有新数据,然后过三个月,半年,模型还得升级,至少现在还没有达到稳态。
《中国企业家》:有没有可能出现一家公司或者技术,再把DeepSeek颠覆了?
张亚勤:这都有可能,尽管DeepSeek比其它公司效率高得多,但它也需要有很多的资源。未来,有很多变数,目前,产业格局并没有完全固定。
《中国企业家》:未来有可能会逐渐摆脱对标注数据的依赖吗?
张亚勤:你如果看GPT,特别是ChatGPT,它的大量数据其实是自我标注、自我监督,到了应用领域的时候,可能还需要标注一些数据。但以后,越来越多的机器可以学会自己标注数据,再发展,可能就不需要标注了。
《中国企业家》:AI时代的创业者和移动互联网时代创业者,他们的能力有什么不一样?
张亚勤:在互联网时代,你要很清楚怎么连接,要有很丰富的连接。在AI时代,你要做出一个所谓的智能体,就要有任务导向,就是你做这事有什么用。
上一篇:王思聪“退”,何猷君“进” 王思聪退出万达是什么操作 王思聪退掉打赏礼物
下一篇:沐曦IPO“辅导工作完成”,国产GPU四小龙中两家已完成上市辅导 沐曦集成开启ipo辅导 沐曦ipo预计什么时候敲钟