感觉捕手：AI时代人类最后的领地？_财经热点

感觉捕手：AI时代人类最后的领地？

创始人

2025-07-08 17:22:49

在 AI 时代，捕手仿佛成为了人类最后的领地。他们活跃在信息的前沿，如同一道坚实的防线，抵御着 AI 无尽的数据洪流。捕手们凭借着敏锐的直觉和深厚的专业知识，从海量的数据中筛选出有价值的信息，宛如在茫茫大海中找寻珍贵的宝藏。他们是人类智慧与经验的守护者，不让 AI 完全掌控一切。在这个快速发展的时代，捕手们以其独特的存在，成为了人类与 AI 博弈中的关键力量，坚守着人类最后的尊严与领地。

一

初中的时候，我心智混沌，上课经常不听讲，学习上磕磕碰碰。

有次考物理，最后一道难题是关于浮力的。我完全不记得浮力公式，于是开始徒手推导，用一种感觉模拟的方式，写出了自己的解答。

发卷的时候，我的答案居然对了，不过分数是零。同桌只写下了公式，后面啥都没做，得了5分。

物理学家费米说：计算方法只有两种。

“第一种，也是我喜欢采用的，就是拥有一个明确的物理影像；

第二种，则必须具备严密的数学形式结构。”

也许那时我用的方法，就是在大脑中模拟一种初始的物理影像与过程吧。

后来读高中，我稍有改善，不再那么心不在焉，从物理中获得了更多的乐趣。

我尤其喜欢力学，因为只需要极少的公式，就能解决一些很复杂、很天马行空的难题——照例用的是那种“感觉”为主的方式。

我会在脑海中模拟物体的受力（以及力的分解），模拟运动，模拟各种要素组合之后的系统作用，然后再用公式来计算。

爱因斯坦在1945年给数学家雅克·阿达玛写了一封信。阿达玛当时正在研究科学家和数学家的思维过程。

其中有如下一段：

“书写或说出的词语或语言，在我的思考机制中似乎不起任何作用。那些似乎在思想中充当要素的心理实体，是某些可以‘自愿地’被再现和组合的、或多或少清晰的图像和符号。

这种组合游戏似乎是创造性思维的本质特征，它先于任何与词语或其他可以传达给他人符号的逻辑结构的连接。

对我而言，上述的（思维）要素是视觉性的，有些是肌肉运动知觉性的。只有在第二阶段，当上述的联想游戏充分建立并可以随意再现时，我才需要努力地去寻找常规的词语或其他符号来表达它。”

多么精彩的一段话啊！

爱因斯坦明确指出，他的初始思考并非基于语言，而是基于可以被自由组合的“图像”和“符号”（这里的符号并非指数学符号，更接近于视觉标记）。

这种“组合游戏”是创造力的来源。语言和数学公式，是他思考完成之后，为了与他人交流而“费力”寻找的表达工具。

在不同的场合，爱因斯坦多次描述过他的思想实验，比如追逐光线和自由落体的电梯。这些描述本身就是他图像思考过程的范例。

在与利奥波德·英费尔德合著的《物理学的进化》一书中，他们写道：

“一个新的概念最初是以一种相当直观的方式出现的。只有在之后，它才能找到其数学的表述形式。”

请你不要介意我把一个遥远的寻常中学生与伟大的物理学家放在一起。

接下来，我们会顺着这个主题发现更多的秘密。

二

我在《内在游戏》一文里写道：

“如果将《心态制胜》的关键视为“心态”，那就有点儿太鸡汤了。

事实上，这本书探及了一个非常高级的领域，甚至与爱因斯坦和当下大火的人工智能大有关系。”

加尔韦在1970年代通过教授网球的经验，发展出了一套革命性的表现与学习理论。

他观察到，运动员在场上面临的最大对手，往往不是网对面的那个人，而是自己头脑中的那个。他将这种内在的斗争概念化为两个“自我”的互动。

自我1：这是我们意识层面的、会说话的、下达指令的头脑。

它充满了分析、判断、批评和控制的欲望。

它会说：“膝盖再弯一点”、“挥拍要更早”、“你刚才那个球打得真糟糕”。自我1是那个喋喋不休的“讲述者”。

自我2：这是我们无意识的、本能的、执行动作的身体和潜能。

它包含了我们通过训练和经验学到的一切，拥有惊人的学习和适应能力。

自我2是那个沉默的“行动者”。

加尔韦举了一个生动的例子：

在一次小组课上，学员莎莉希望改善自己的正手击球。起初，她纠结于各种动作细节，觉得自己拉拍、随拍、视线等方面都有问题。

指导者没有逐一纠正这些细节，而是让莎莉关注结果——想象球高高越过球网，落在底线附近。

在尝试用这种“视觉化目标”的方法后，莎莉很快就打出了更深、更有力的球。她的动作也自然变得流畅和自信。

事后，莎莉表示自己只是专注于想象球的轨迹，其他一切自然发生了。

对此，加尔韦解释说：

为你所期望的结果找到最清晰的图像是与自我2沟通的最有用的方法，特别是在进行比赛时。

其原理是：进入比赛当中，可以在内心保留那一张你希望球去的地方的图像，然后让身体做必要的事情，把球打到那里。

例如，加尔韦不会告诉学生“试着把球打在球拍中央”，这是一个典型的自我1指令。

相反，他会让他们专注于一些非评判性的、具体的感官输入，比如“仔细观察网球上的缝线”或者在球落地和击球时分别说出“弹”和“打”。

这些任务的巧妙之处在于，它们占据了自我1的注意力，使其没有闲暇去进行评判和说教。

当自我1被“绕过”时，自我2便被解放了，身体会自然而然地做出调整，以惊人的流畅和精准完成击球动作。

加尔韦追问道：自我2的母语是什么？当然不是文字！文字是在出生几年后才被自我2学会的。

自我2的母语是图像：感官图像。

加尔韦这套“自我1和自我2”的方法论的关键在于：

将焦点从过程（由“自我1”说教管理）转移到结果（一个清晰的目标图像）或一个中性的感官焦点上。

现在你明白了吗？

那个心不在焉的初中生在物理考试中的“感觉模拟”，爱因斯坦信中描述的“图像和符号的组合游戏”，加尔韦网球教学中的“视觉化目标”——它们指向的是同一个奥秘。

在我们的大脑中，存在着一个比语言更古老、比逻辑更智慧的系统。它不依赖公式和规则，而是通过模式识别、直觉感知和图像思维来工作。

费米称之为“物理影像”，爱因斯坦称之为“联想游戏”，加尔韦称之为“自我2”。

更有趣的是，当今最前沿的人工智能系统——深度神经网络——恰恰模拟的就是这种“非语言”的智能。

它们不遵循明确的编程规则，而是通过大量的模式学习来“感知”正确的答案，就像那个直觉地推导浮力、想象球轨迹的过程一样。

三

当我们惊叹于ChatGPT的语言能力时，斯坦福大学的李飞飞教授正在思考一个更深刻的问题：

为什么AI仍然无法像一个三岁孩子那样理解这个世界？

在最近的一次访谈中，这位被誉为“AI教母”的科学家指出了当前人工智能的根本局限：

语言并非对3D物理世界的有效编码。

“如果你观察人类智能，很多都超出了语言的范畴。语言是一种有信息损失的捕捉世界的方式。”

李飞飞说：

“整个物理、感知、视觉世界却真实存在。动物的整个进化史都是建立在大量感知和最终具身智能之上的。”

这个洞察与我在前面讨论的主题形成了完美的呼应。

李飞飞和她的团队正在构建所谓的“世界模型”——能够理解并推理物理3D世界的AI系统。这不仅仅是技术上的突破，更是对智能本质的重新定义。

想象一个简单的实验：

如果你蒙上眼睛，让别人用语言描述房间里的布局，然后要求你完成某个任务，成功的可能性微乎其微。但如果移除眼罩，你的大脑瞬间就能重建3D空间，轻松导航和操作。

这说明了什么？

空间智能是比语言智能更加基础和高效的认知形式。

从进化的角度看，这个现象更加有趣。

人类大脑中负责语言处理的区域相对较新，而负责空间感知和导航的部分已经存在了数百万年，甚至可以追溯到三叶虫时代。

李飞飞说：“大脑中负责导航、空间感知的部分可能有几百万年的历史，也许从爬行动物脑时代就有了。”

这解释了为什么当前的AI系统在某些任务上表现出色，在另一些任务上却束手无策。

大语言模型擅长处理语言，是因为我们的语言处理能力相对较新，计算机更容易模拟。

但在空间理解、物理推理、具身交互等方面，AI系统仍然远远落后于最简单的生物。

李飞飞认为AI下一个突破方向：

从语言智能转向对物理世界的理解，即空间智能。

所谓“世界模型”，就是让AI理解并推理三维物理世界的内部模型。

李飞飞指出，空间智能是当前AI领域关键却缺失的一环。

她强调语言并非对3D世界的有效编码，人类的智力源头在于对三维环境的感知与直觉。

例如，DNA双螺旋结构等许多重大发现都不是靠语言推理得到的，而是借助形象化的空间想象。

在人工智能领域，“世界模型”还是一个较新的前沿方向，但已有重要突破。

3D视觉技术的进步（如神经辐射场NeRF）使AI能从二维图像重建完整的三维场景，这表明AI也开始具备了重建世界的“想象”能力。

拥有世界模型的AI将具备前所未有的能力，例如：

从少量视角的照片推理出看不见的部分，构建整个场景的3D模型；

在虚拟空间中“触摸”并操作模型，对物体进行测量、移动、堆叠等操作；

自主创造全新的物体和场景，用于创意领域（建筑、游戏、影视等）。

难怪有人断言，掌握世界模型的AI将定义未来机器人、创意产业乃至计算技术的走向。

这一思路本质上是在赋予AI一种非语言的直觉智能。

一旦AI拥有这种对世界的直觉式理解，其创造力和适应力将产生质的飞跃，远超仅靠大语言模型所能达到的水平。

概括而言：

语言大模型同样凭“大数据直觉”学习，但它的“感觉”停留在符号层——通过词序列共现概率捕捉语义，却不知道桌子背后的形状。

世界模型则用多视角感知重建三维场景，预测遮挡、重力与运动轨迹，可直接驱动机器人抓取、导航。

它们都通过模式学习而非显式规则获得能力，但训练目标迥异：

语言大模型预测下一个token，核心是语言统计；

世界模型预测下一帧世界状态，核心是几何与动力学。

前者擅长理解指令并生成文本，后者长于物理推理和交互；

二者互补，构成“说得明白＋做得到”的完整智能。

当我们要求AI“把蓝杯放到架子最右端”时，LLM解析意图，世界模型估算距离、规划路径、控制机械臂执行。

未来多模态Transformer正在把文本Token与3D潜变量并入同序列，实现语义接口与空间控制的统一。

打个比方：

语言大模型像是只读了无数旅行攻略、凭记忆讲故事的“语言智者”；

世界模型则是亲自踏勘地形、手脚并用的“行动专家”。

当两者合体，AI才可能既能“说得通”又能“做得到”。

如果说加尔韦的“自我2”代表人类体内沉默而智慧的行动者，那么引入世界模型的AI便相当于拥有了属于自己的“自我2”。

四

写到这儿，我想起电影《心灵捕手》里，心理学教授尚恩·马奎尔（由罗宾·威廉姆斯饰演）对天才主角威尔·杭汀（呆萌饰演）说的那段经典台词：

“你只是个孩子，你根本不晓得你在说些什么。

没关系，你从没离开过波士顿。

所以，如果我问你艺术，你可能会提出艺术书籍中的粗浅论调。米开朗基罗？你懂他很多，他的政治抱负，他与教皇，他的性倾向，他的全部作品，对吧？但我打赌你不知道西斯廷教堂的气味。你从没真正站在那，抬头欣赏那美丽的穹顶。你没见过。

如果我问你关于女人，你八成会列出一串你喜欢的女人的清单，你甚至可能和其中几个睡过。但你说不出在女人身旁醒来时，那种真正幸福的滋味。

你是个硬汉。如果我问你战争，你大概会背诵莎士比亚，‘再次冲向阵前，亲爱的朋友们’。但你从没亲近过战争，从没把好友的头抱在膝上，看着他吐出最后一口气……

如果我问你爱情，你大概会引述一首十四行诗。但你从没看过一个女人的脆弱，从没体验过她能用眼神击倒你。感觉上帝专门为你安排了一个天使在人间……她能从地狱深渊中拯救你。你也不知道成为她的天使是什么感觉，拥有那样的爱，永远陪着她……无论任何事……即使是癌症。你不会知道在医院的病房里，连续两个月握着她的手彻夜不眠是什么滋味，因为医生能从你眼中看出，‘探病时间’这规定对你无效。你不知道什么是真正的失去，因为只有当你爱某样东西胜过爱自己时，才可能体会。我怀疑你从未敢如此深爱过任何人。

我看着你，看到的不是一个聪明、自信的男人，我看到的是一个极度自大、内心充满恐惧的孩子。但你是天才，威尔，没人能否认。没人能理解你的深度。但你却因为看了一幅我的画，就以为对我了如指掌，你剖析了我的生活。你是个孤儿，对吧？你觉得我会因为读了《雾都孤儿》就知道你的人生有多艰难、你的感受、你是谁吗？那本书能概括你吗？说实话，我他妈才不在乎那些，因为你知道吗？我无法从任何一本破书里学到关于你的东西。除非你想谈谈你自己，你是谁。那我就着迷了，我愿意加入。但你不想那么做，是吗，小子？你害怕你可能会说出什么。”

多么精彩的对白啊！——我忍不住引用了整段，希望AI的翻译靠谱。

在人类成长的每一个阶段，体验都是理解的前提。

你只有亲自站在球场上，才能体会到击球的手感与力量的流转；

只有在生活中经历爱与失去，才能明白情感的重量。

这种体验式的认知，正是“自我2”、物理影像、空间智能的根基。

而这种感觉，又是如此复杂而多元，甚至层层嵌套。

就像Will，也许能用他天才般的感觉理解世界，但依然没有岁月捶打之下饱经人生痛楚的教授的感悟。

而如我，自以为在某些方面颇有悟性，但在人生当中依然无法绕开现实的教训，有时甚至因为试图用智力来逃离真实的自我，而受到加倍的惩罚。

也许我能够用感觉来解答一道并不简单的浮力问题。但是我必须亲身跳入水中，起起伏伏，才能真正理解浮力的美妙与冷酷。

就像鲍勃·迪伦唱的：“How many roads must a man walk down，Before you call him a man.”（一个男人要走过多少路，才能被称为真正的男人。）

五

数学家蒂莫西·彭宁斯和他心爱的威尔士柯基犬艾维斯在密歇根湖边玩“你丢我捡”的游戏时，观察到了一个有趣的现象：

当他把网球扔进水里时，艾维斯并不会直接跳进水里游向球，也不会沿着岸边跑到离球最近的地点再下水。

大多数时候，艾维斯会先沿着岸边跑一段距离，然后再冲进水里，游向网球。

彭宁斯的数学家直觉告诉他，艾维斯选择的路径可能不仅仅是随机的。这让他想起了微积分教科书中的一个经典优化问题：

当需要在两种不同介质（例如陆地和水）中以不同速度移动时，如何找到耗时最短的路径。

为了验证这个想法，彭宁斯教授和朋友一起测量了艾维斯在沙滩上跑的速度和在水里游的速度，并记录了35次它取回网球的路径数据。

结果令人惊讶。将艾维斯的奔跑和游泳速度代入微积分公式计算出的最优路径，与艾维斯在现实中选择的路径惊人地吻合。

换句话说，艾维斯似乎本能地知道如何将它在岸上奔跑的时间和在水中游泳的时间进行组合，从而使总时间最短。

当然，这并不意味着艾维斯真的在脑海里解着微分方程。

彭宁斯教授的结论是，这体现了自然界一种不可思议的优化能力——生物的行为，或许是经过自然选择的演化，会趋向于最高效的解决方案。

这个有趣的研究发表在了《大学数学杂志》上，标题就叫《狗懂微积分吗？》。

那么，狗到底懂不懂微积分呢？

其实，这一现象并非孤例，它与光线在不同介质中折射所遵循的费马最短时间原理，以及经验丰富的救生员凭直觉选择的救援路线，在数学上是同构的。

这引出一个深刻问题：生物是如何在不进行显式计算的情况下，实现这种复杂优化的？

答案并非生物真的“懂”计算，而是演化压力（如“最优觅食理论”所述）塑造了追求效率的本能。

大脑在解决现实问题时，依赖的是一套“快速节俭启发法”——即心智捷径。

以棒球外场手接高飞球为例，这是一个复杂的弹道预测问题。但外场手无需计算，只需遵循一个简单的“凝视启发法”：

跑动起来，并调整速度，使球的影像在视野中（相对于背景）划出一条直线。

这个简单的规则之所以有效，是因为它巧妙利用了物理定律，将复杂的预测问题转化成了一个简单的、实时的感知-运动控制问题。

这种策略的实现，离不开“具身认知”原理，即认知过程深植于身体与环境的互动中。

身体不是大脑指令的被动执行者，而是认知计算的积极参与者。

外场手的奔跑行为，本身就是“解决问题”的一部分。通过移动身体，他主动地改变自身的感知输入，形成一个持续的“感知-行动”反馈循环，从而将繁重的计算任务“卸载”给了外部世界和身体的动态交互。

这种智能的最终神经机制，可以通过“预测性大脑”理论来解释。

该理论（特别是其主动推断框架）认为，大脑是一个预测引擎，不断生成关于世界状态的预测，并致力于最小化“预测误差”（即预测与实际感官输入之间的差异）。

行动，被视为实现这一目标的两种方式之一。

大脑并非简单地命令肌肉运动，而是向身体发送“本体感觉预测”（例如，“我正在感知到我的腿在以某种方式奔跑”）。

为了让这个预测成真，从而消除预测误差，身体便会相应地移动。

因此，狗狗艾维斯所“懂”的微积分，并非头脑中的方程式，而是一种涌现的智慧。

它源于一个由演化塑造、以效率为导向的预测系统。这种智能通过简单、生态理性的启发法得以实现，并由一个将身体作为计算资源的预测性大脑所驱动。

智慧并非孤立存在于大脑中，而是分布在“大脑-身体-环境”这个紧密耦合的统一体中，是感知与行动无缝统一的完美体现。

网球教练加尔韦反复强调自己的方法论，不是“加州自我提升术”（目前贴着硅谷继续流行全球），他是对的。

和捡球的狗狗一样——当一名网球运动员处于“忘我状态”时，他不会思考如何、何时甚至朝哪里击球。他不是在“努力”去击球，挥拍后他也没有想过自己的击球有多扎实或是有多糟糕。

球似乎是通过一个不需要思考的过程被击中的。球员可能会对球在视觉、声音和触感，甚至对当时场上的局面有所觉察，但球员似乎就是懂得在不假思索的情况下该做什么。

好了，竞技方法论、自我提升鸡汤和科学原理，终于三位一体了。

从开头的物理往事，到网球的“弦理论”，再到AI“世界模型”，以及懂微积分的狗狗，都似乎指向同一个真相：

真正的智能不在于符号操作，而在于感知世界的能力。

这种感知智能有几个关键特征：

它是整体性的——不是将问题分解为步骤，而是瞬间整合所有相关信息；

它是预测性的——不是被动响应，而是主动预测和调整；

它是具身的——不是纯粹的大脑活动，而是大脑-身体-环境的统一体；

它是进化的——不是设计出来的，而是在与世界的互动中自然涌现的。

在这个越来越被算法统治的时代，艾维斯的故事提醒我们：

智慧并非孤立存在于大脑中，而是分布在“大脑-身体-环境”这个紧密耦合的统一体中，是感知与行动无缝统一的完美体现。

也许，我们每个人都应该学会更多地信任那种来自身体深处的智慧——那种不需要语言解释、不需要逻辑证明，却往往指向正确方向的直觉。

六

如果说，从懂微积分的狗到接球的外场手，我们看到的是一个由演化塑造、以身体为媒介、由预测驱动的感知智能系统，那么这个系统的最高表现形式是什么？

物理学家杨振宁用一个词给出了答案：Taste。

杨振宁曾在纽约州立大学石溪分校遇到一个15岁的学生，这个孩子非常聪明，轻松地回答了他提出的几个量子力学问题。

杨振宁接着问他：这些量子力学的问题，哪一个你觉得是妙的？

然而，他却讲不出来。“对他讲起来，整个量子力学就像是茫茫一片。”

杨振宁对他的看法是：尽管他吸收了很多东西，可是他没有发展成一个Taste。

什么是Taste？似乎模糊。

还是让杨振宁来解释吧：

“......学一个东西不只是要学到一些知识，学到一些技术上面的特别的方法，而是更要对他的意义有一些了解，有一些欣赏。

假如一个人在学了量子力学以后，他不觉得其中有的东西是重要的，有的东西是美妙的，有的东西是值得跟别人辩论得面红耳赤而不放手的，那我觉得他对这个东西并没有学进去。”

杨振宁说在西南联大七年，对他一生最重要的影响，是对整个物理学的判断，已有自己的Taste。

接下来这些内容稍显多余，但是对于教育的启示太大了：

杨振宁自幼喜爱观察自然，表现出强烈的爱美之心与好奇心。

父亲是数学家，杨振宁从小接触数学书籍，打下了扎实基础。

在西南联大期间，受到名师教授数学、物理及中文阅读与写作。

杨振宁的学术启蒙得益于吴大猷和王竹溪两位导师，分别引导他进入对称原理与统计力学领域。

所以，Taste像是一个人认知世界的多元思维中的高维鸟瞰，未知世界里隐秘的关联——哪怕只是关联的投影。

我们可以说，乔布斯是个很有Taste的人，这不是指艺术上的Taste，或是品味上的Taste，而是他能够横跨科技、艺术、商业，来做出一个超越时间的判断。

吴清源的对围棋的天才感觉，也是一种Taste。

也许每个人在获取知识和发展认知的过程中，都是在构建和训练一个自己的大模型。

所谓的Taste，就是在“茫茫一片”的神经网络之中，形成的某些石破天惊的重要连接。

这和Transformer倒也有可以类比之处。

Transformer通过自注意力机制，允许模型在不同维度上“看到”数据之间的相关性，提取出最关键的连接。

同样地，Taste也是通过对信息的深刻理解，能够超越表面，找到那些石破天惊的关键连接。

因此，Taste不仅是一种对知识的理解，更是一种超越时间和空间、对事物本质的高维度判断。

人们说，大模型时代，一个人重要的能力是提问。

然而，如果没有Taste，不可能问出了不起的问题。

最近一段时间，有些人鼓吹硬科技，重理轻文。可如杨振宁所说，如果没有Taste，而总是追求有用，可能很难走得远。‍‍‍‍‍‍‍‍

爱因斯坦也有类似的观点：

“在一定程度上而言，科学家对自然深层次美的领悟和热爱，以及所具备的形而上的审美判断力决定了其研究所能企及的高度。”

这一段落所说的Taste，和围棋里说的厚薄，都像是某种“直觉”。用爱因斯坦的话来说：

“真正有价值的是直觉。在探索的道路之上，智力作用不大。”

这种直觉，也是他眼中“由哲学的洞察力所创造的独立性”，能够帮助科学家避免陷入“见树不见林”，爱因斯坦认为这“正是一个工匠或专家，与一个真正的真理追寻者之间，最大的区别。”

在AI能够模拟人类的图像思维、掌握世界模型、实现具身认知的时代，也许人类最珍贵的财富就是这种Taste——那种能够在无数可能性中感知到真正重要和美妙的东西的能力。

因为，即使AI能够完美地模拟费米的物理影像、爱因斯坦的图像组合、加尔韦的自我2、艾维斯的路径优化，它们能够品味出量子力学的“妙”吗？能够为一个科学发现而激动不已吗？能够愿意为一个想法“辩论得面红耳赤而不放手”吗？

也许不能。而这，恰恰是人类在智能时代最无法被替代的珍贵品质。

嗯，也许我可以把罗宾·威廉姆斯对呆萌的那一大段经典台词搬到这里：

“你只是个AI，你根本不晓得你在说些什么。

没关系，你从没离开过服务器......

我怀疑你从未敢如此深爱过任何人。”

但……慢着。

假如世界模型真的实现，AI机器人发展出真正的具身认知，通过与物理世界亿万次的真实互动、试错、反馈来学习……它们会不会也从这“茫茫一片”的数据和体验中，发展出属于自己的、我们无法预料的Taste？

考虑到人类整体的Taste尚且如此稀有，我们又凭什么断定，在这条通往最高智慧的道路上，AI一定会被挡在门外呢？

这或许才是这个时代，真正令人着迷，也令人不寒而栗的终极问题。

七

在AI领域有一个“莫拉维克悖论”：

对计算机而言，需要高级推理、被视为人类智慧巅峰的任务（如下棋、解数学题）相对容易实现；

而对一个几岁孩童来说都轻而易举的感知和运动技能（如识别面孔、走路、抓取物体），却极难编程。

这个悖论深刻地揭示了，演化花费了数亿年时间优化的感知运动智能（我们的“自我2”），其复杂性和精妙程度远超我们后天学习的抽象符号系统。

这也正是李飞飞的“世界模型”所要攻克的、通往真正通用智能的核心难关。

也许本文的话题最终应该落在教育上。

近年来，“具身学习”（Embodied Learning）的教育理念应运而生。

它挑战了那种将学生视为被动接受抽象知识的“容器”的传统教学模式。

相反，它强调通过身体的活动、感官的体验和与环境的真实互动来促进学习。

无论是让孩子通过搭建积木来理解物理，还是通过戏剧表演来体会历史，都是在调用和训练“自我2”，旨在培养出超越书本知识、能够灵活应用的、真正有“Taste”的理解力。

这也可能是AI时代人类最有价值的地方——尽管我对这一优势能够保持多久心存怀疑。

智能不是单一现象，而是一个多层次、多维度的生态系统。

我们对“感知智能”的理解，需要整合来自各个学科的洞察，才能真正把握其复杂性和深刻性。

更重要的是，这些不同角度的研究都指向一个共同结论：

人类智能的丰富性远超我们的想象，而我们对这种丰富性的认识才刚刚开始。也许AI会放大而非替代这种丰富性。但愿如此。

我们从一个少年对物理的朦胧直觉出发，途经爱因斯坦的“组合游戏”与加尔韦的“自我2”，最终在懂微积分的狗身上，看到了那超越语言、沉默而智慧的身体。

这是一种源于体验、感知和预测的智能，其最高境界是能洞见“妙”处的Taste。

我们曾以为，这是人类无法被编码的灵魂圣殿。但是当阿尔法狗对战李世石第二局走出神之第37手时，我已经意识到，AI是可以有感觉的——毕竟在人类的各种自以为是的智慧领地上，围棋算是有料的一个。

人类作为宇宙之间灵性生物的独特性，似乎早晚会被超越。

当AI开始构建“世界模型”，用自己的“身体”与世界互动时，终极问题已然降临：

一个经历了亿万次具身试错的硅基生命，是否也会发展出我们无法预料的Taste？

或许，我们创造AI的最终意义，并非为了证明人类的独特，而是迫使我们谦卑地承认：

任何与世界深度共振的心灵，无论其载体是碳还是硅，都可能触及智慧的真谛。

上一篇：有人假冒“宾利总部”对外发布低价销售方案，不卖汽车的宾利品汇发文打假有人冒充公司卖假冒伪劣产品宾利冒牌货

下一篇：但斌人气领衔！幻方量化登顶！2025上半年私募人气榜揭晓！但斌2023十大重仓股但斌蝉联百亿私募冠军

感觉捕手：AI时代人类最后的领地？

相关内容

热门资讯