李开复 零一万物CEO
近日,零一万物CEO李开复博士,与卡内基梅隆大学(CMU)计算机科学学院建院教授、世界首个机器学习系创立者 Tom Mitchell展开深度对谈。
以下为对谈内容(有删节):
李开复:1979 年,我进入哥伦比亚大学读书时,就对人工智能产生了浓厚兴趣。我认为,AI是人类认识并理解自己的最后一里路。我们在探索大脑的工作机制的同时,也是在尝试回答一个更重大的问题:我们究竟能否创造出比肩或稍逊于人类的智能体。
这成了我一生的梦想。 我的导师之一约翰·肯德尔(John Kender)是卡内基梅隆大学(CMU)的毕业生,当时在哥伦比亚大学任教,他把我推荐到了CMU,我非常幸运地被录取了。
但我通过彼得·布朗(Peter Brown)接触到了另一条路线:隐马尔可夫模型。这是一种基于概率统计的机器学习方法,天然适合处理语音这样的时间序列问题。
Raj 说了一句非常了不起的话:“我不同意你,但我会支持你。”这句话让我终身受益。科学探索不能一开始就断定“只能走这条路”,而要允许研究者追求自己擅长且真正有热情的方向。AI的突破很少来自孤立的灵感。真正改变历史的,是有人敢走不同的路。
随后,Raj 问我需要什么资源。我说,我需要大量数据。弗雷德里克·耶利内克(Fred Jelinek)有一句名言:“没有任何数据能胜过更多的数据。” 我成为了这句话的坚定信徒,直到今天依然如此。
规则能教机器服从,数据让机器开始理解。
当时 CMU 语音组拥有非常强的计算资源。做专家系统的人主要用这些机器标注声谱图,而专家系统本身并不太消耗算力,所以我得以使用 SPARCstation 上所有剩余的计算资源。我手里大约有 20 台 SPARCstation 可用,在当时已经是惊人的算力。
有 Peter 指导我学习隐马尔可夫模型,有 Raj 以他的智慧、战略眼光和鼓励做我的支持者,同时,我还拥有了海量数据和算力。这就是一切的开端。
我们当时面临的任务要求更高:连续语音、非特定说话人、大词汇量。当然,当时所谓“大词汇量”也就是大约 1000 个词,还不是今天意义上的开放式自然语言听写。
最初专家系统准确率很低,只有10%或20%,后来逐渐提高,但仍未达到真正实用的水平。我记得单词准确率最高大概只到了50%或60%。我决定直接做同一个任务,因为它已经成为一个基准测试(Benchmark):如果我能在这个任务上击败已有基准,就能证明我的技术路线是有价值的。
我明白,技术路线之争,不是靠辩论赢的,是要靠结果赢的。
在此基础上,我主要做了三方面改进。
第一,改进隐马尔可夫模型结构,同时应用语音的语音学和声学层面的知识使其更好地建模语音学和声学特征。我从维克托·朱(Victor Zue)和他在CMU的同行罗恩·科尔(Ron Cole)那里学到了很多关于语音的语音学和声学层面的知识。比如,音素在不同上下文中的发音并不完全相同,例如 “bat” 和 “cat” 中的 “a” 听起来类似,但在声谱图中的表现会受到前后音影响。
第二,采用更好的信号处理表示。来自日本的访问学者鹿野清宏博士建议我使用梅尔倒谱(Mel-Cepstral Representation)表示法,而不是普通 FFT 声谱图,这带来了显著性能提升。
第三,在构建语言模型时,我没有直接使用上下文无关文法(Context-free grammar),因为配合维特比算法运行它非常耗时。在语言模型上使用二元语法和三元语法,也就是利用前一两个词预测下一个词。这在工程上非常重要。
这些因素叠加起来,最终带来了一个重要突破。我清楚地记得,在一个星期六醒来后,发现系统跑出了96%的准确率。我整个人都被震撼了,因为在此之前我能做到的最好成绩只有80%多。这件事说明,技术突破往往不是单点奇迹,而是模型结构、数据表示、上下文建模、数据规模和计算资源等多个正确方向同时叠加后的结果。
李开复:我的论文发表后,相关方法成为行业标准之一。CMU 将我开发的 Sphinx (斯芬克斯系统)授权给多家公司,后来又将其开源,为行业设定了一个性能基准。
神经网络的想法一直存在,只是过去没有足够算力训练足够大的网络。一两层神经网络很容易被隐马尔可夫模型击败,但当层数增加、数据规模扩大、算力增强后,性能就会大幅提升。
再往后,就是今天我们熟悉的 Transformer 和大语言模型。这其中有许多突破:比如杨立昆(Yann LeCun)的贡献,以及吴恩达(Andrew Ng)所推动的端到端学习思路:不再将语言模型和声学模型视为相互独立的模块,而是把它们统一到同一个系统中进行训练。
当年 IBM 和我使用二元语法、三元语法,本质上也是一种非常早期、非常“笨拙”的上下文建模。它只能看前一两个词;今天的Transformer可以关注上百万个词的上下文,并通过注意力机制进行选择性处理。
因此,回看AI技术演进,关键始终在于四件事:模型架构、海量数据、强大算力,以及处理上下文的能力。
今天我们正在目睹AI在越来越多场景下达到人类水平,并且在不久的将来,在更多场景中超过人类表现。
Tom Mitchell:过去五年里,让你最惊讶的事情是什么?接下来五年,你认为我们可能看到哪些惊喜?
李开复:最大的惊喜有三个:Transformer 架构竟然能带我们走得如此之远,Scaling Law 竟然能持续奏效如此之久,以及强化学习终于在多年后发挥了关键作用。
我是 GPT-2 的早期测试者之一,当时就意识到,随着算力发展,Transformer 和注意力机制会带来巨大提升。但我没有料到,它能像今天这样扩展得如此庞大、深入。
今天 AI 在计算机视觉、机器翻译、聊天机器人、深度研究、代码生成、数学推理等方面取得的进展,很多都是我原本认为“有生之年也许会发生”的事,但没想到来得如此之快。
AI 的历史不是一条直线,而是一代人不断推翻上一代人的确定性。
坦白说,我当时并没有许多谷歌和OpenAI年轻研究员们那样笃定的信心。 我想这很大程度上是因为“路径依赖”,我被过去那种长期缓慢发展的节奏给“毒害”了,所以我花了一段时间才适应这个快节奏。
经验让人看得更远,也可能让人跑得更慢。所以,我确实预见到了它的到来,趋势是清晰的;但我认为像伊利亚(Ilya Sutskever)这些人的那种坚定信念,真的非常鼓舞人心且令人惊叹。
现在,我和许多人一样,都在向年轻一代学习。
如果你看那些被OpenAI雇佣的极其年轻的人才,他们只有20多岁,在大语言模型时代长大,所以他们的思想完全是“未被约束”的。 就像我当年很幸运地在机器学习领域未被更早期的“专家系统”约束一样。
那些深度学习时代的原住民,曾经震撼了上一代 AI 研究者;现在,生成式 AI 和大语言模型时代的原住民,又让深度学习时代的人深受震撼。
未来几年,我相信还会有更多惊喜。如果AI做出突破性的科学发现,我不会感到惊讶。我敢肯定,三四年内,在AI领域就会出现诺贝尔奖级别的突破。当然,真正被授予诺贝尔奖可能需要更长的时间。一旦AI能加速科学发现,它带来的将不只是效率提升,也可能推动健康寿命延长、物质财富增加,以及更多人类难题的解决。
Tom Mitchell:如果你能对即将入学的计算机科学与AI专业博士生说几句话,你会给他们什么建议?
李开复:我会给出一个非常务实的建议。今天基于Transformer的生成式 AI 要继续发展,必须建立在庞大算力基础设施之上,而多数纯学术机构并不具备这样的条件。因此,如果学生想参与这些历史性突破,就要寻找那些与拥有大量计算资源的企业有合作关系的教授。这样既有学术自由,也有必要的算力资源。
如果没有这样的条件,或者不打算这么做,我的建议是:打破常规,寻找 Transformer 之外的下一个范式。
当所有人都在优化答案时,总要有人重新定义问题。
不要只是微调谷歌或 OpenAI 已经做出来的东西。如果没有充足计算资源,很难在他们的主战场上击败他们。但你可以做他们还不知道怎么做的事,去构建或发明下一个 Transformer,或者下一代强化学习机制。
这些方向风险更大,但可以在小得多的算力基础设施上进行早期测试。AI 领域真正稀缺的,从来不是共识,而是能被验证的非共识。
那些在谷歌崛起后仍固执己见做传统信息检索的人,最终走进了死胡同。 在自动驾驶的早期阶段,CMU和斯坦福取得了令人惊叹的成就;但一旦Waymo、特斯拉等巨头入局,制造下一辆自动驾驶汽车就不应该再成为一个纯学术研究课题。 要么你跟Waymo或特斯拉合作,要么你就去研究下一个前沿领域,这就是我的建议。
学术界的未来依然光明,但必须脚踏实地。
* 文章来源:零一万物 01AI
责编|林洁