梁文锋“藏锋”|DS爆火100天 梁文锋ds介绍 梁文锋tvb
创始人
2025-05-15 22:01:39



编者按:自1月20日DeepSeek R1爆火以来,过去100天的大模型世界中,DeepSeek成了当之无愧的顶流明星。DeepSeek不仅展现了中国AI的力量,也在一定程度上影响了世界AI发展的方向。值此之际,字母榜&直面AI特推出“DeepSeek爆火100天”专题报道。

“无人不识梁文锋。”

这句话大概足以形容梁文锋今天在AI圈的地位:媒体想尽办法一访难求、投资人用尽手段一面难约。

DeepSeek爆红后,其研发团队所在的北京融科资讯中心和杭州汇金国际大厦,一段时间内挤满了媒体和投资人,甚至众多慕名而来的网友,直接将北京融科资讯中心楼下的透明水牌,挤成了小红书上的网红打卡点。

这一切都是因为DeepSeek R1的发布。1月20日,DeepSeek正式发布性能比肩OpenAI o1完整版的R1推理模型后,直接带动大模型行业的研究焦点,从之前的GPT模式,转向了Reasoner模式。

梁文锋和DeepSeek R1的到来,将新的AI时代切割成由两大milestones(里程碑)节点分割而来的两段不同时期:一个是ChatGPT的问世,一个是DeepSeek R1新模型的发布。身处不同节点之中的企业,在拥抱AI上也开始衍生出新的变化。

国内外一众AI大厂都开始发力推理模型,国内科技大厂更是在DeepSeek效应之下纷纷加码C端应用。

梁文锋所一力主导的低成本大模型训练策略,更是让DeepSeek成了AI时代最大受益者英伟达的最大空头:资本市场开始怀疑,当用相对较少的算力也能实现不输于OpenAI的模型性能表现时,英伟达所代表的高端算力芯片是否会迎来新的泡沫。

上述担忧曾在DeepSeek R1发布后一周的1月27日发酵至巅峰,导致英伟达股价一夜蒸发近6000亿美元。

梁文锋逼得英伟达创始人黄仁勋不得不在公开场合多次强调,DeepSeek并没有降低算力需求,反而在进一步放大。

但黄仁勋的麻烦不止于此。梁文锋的低成本大模型训练方法,还意外带火了H20芯片在国内的需求新高。

自2023年以来,H20芯片是英伟达可合法出口至中国的最强AI芯片。但在DeepSeek影响之下,4月份,美国对其实施新的出口管制许可,其被禁止卖入中国市场。英伟达官方在一份报告中披露,这项限制将造成高达55亿美元的额外损失。

但好消息是,黄仁勋已经在加紧研制新一代的中国特供芯片。近期,据路透社报道,英伟达已通知其主要中国客户,计划在7月推出修改版H20芯片。

从模型、应用到芯片,梁文锋携DeepSeek之威,掀起了一场波及全产业链的震荡。



2024年12月,梁文锋在朋友圈转发了一篇文章,内文是其为文艺复兴科技公司创始人——“量化之王”詹姆斯·西蒙斯的传记《征服市场的人:西蒙斯传》一书所做的序言,其中有句话写道,“西蒙斯是幸运的,他遇到了好的时代。”

梁文锋无疑同样是幸运的,他遇到了能令自己大放异彩的AI时代。如今,随着R2模型发布越来越近,全行业都在期待梁文锋带来的新惊喜。

A

凭借R1发布爆火之前,梁文锋其实引发过两次行业热议。

2023年4月,千亿量化私募巨头幻方量化发布公告,称将集中资源和力量,投身人工智能技术,成立新的独立研究组织,探索AGI(通用人工智能)。

一个月后的2023年5月,该组织被命名为“深度求索”,并发布了首款模型DeepSeek V1。当时,《财经十一人》报道称,国内拥有超过1万枚GPU的企业不超过5家。而DeepSeek就是其中之一,并由此开始得到外界关注。

及至2024年5月,DeepSeek再次借助大模型价格战一跃成名。当时,DeepSeek发布了DeepSeek V2开源模型,并在行业内率先降价,将推理成本降到每百万token仅1块钱,约等于GPT-4 Turbo的七十分之一。

随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

只不过,当时暂未推出C端应用的梁文锋,其声量更多局限在大模型行业圈层,外界的更多目光被吸引到了科技大厂身上。

爆火之前,梁文锋也曾渴望得到投资机构的青睐,但在找不同出资方洽谈后,很多VC在退出需求下,因看不到商业化前景,而放弃了投资梁文锋的可能性。

但随着DeepSeek爆火,梁文锋成了一众投资机构的座上宾,还是请不到的那种。

就连一直宣称不投资大模型的朱啸虎,都在感受完DeepSeek新模型后,希望能够参与其中。

值得一提的是,DeepSeek的爆火,并未改变梁文锋一贯的低调作风。

成立DeepSeek之前,作为幻方量化创始人,由于梁文锋一直隐身幕后,外界在很长一段时间内都以为公司核心高管只包括另外两位联合创始人。

即便因DeepSeek一夜成名,梁文锋依然继续保持着每天看论文、写代码、参与小组讨论的习惯,且至今DeepSeek都暂未设立公关团队,对外发声主要通过在相关社交媒体上设立的官方账号,以及上百个DeepSeek微信交流群。



自1月20日DeepSeek R1发布至今,梁文锋唯二的公开露面,一次是上了新闻联播,一次是参加民营企业家座谈会。

尽管甚少露面,但通过国内外科技大佬之口,梁文锋一直活跃在大众视野。

只不过,不同于硅谷如马斯克、奥特曼等人对DeepSeek和梁文锋的质疑之声,国内科技大佬几乎清一色展现出了对DeepSeek的拥抱,和对梁文锋的赞赏。

靠接入DeepSeek攫取到最大红利之一的马化腾,在谈到梁文锋时称“很敬佩市场上出现独立、开源的产品,我们非常尊重。”

去年12月宣布追逐AGI的李想,在时隔130天后,再次对外谈及AI,不仅认为DeepSeek加速了理想在大模型上的研发效率,而且总结了自己对梁文锋的两个印象,“第一他是个特别自律的人,第二他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。”

当然,被梁文锋改变的科技大佬名单还有很长,包括张一鸣、李彦宏、蔡崇信……

B

被聚光灯环绕的梁文锋,却选择了一系列反常识的操作。

尽管受到万千瞩目,但梁文锋既没有利用投资人的热情,疯狂融资扩张资源,也没有借机做大C端用户规模。

在各路投资人看来,上述场景原本应该是摆在梁文锋面前的一手好牌。

对于想要参与投资DeepSeek的朱啸虎来说,梁文锋的安卓开源梦想,再往前走是需要烧钱的。

更现实的考量上,无论是未来在模型路线上继续scale up,还是承接B端和C端暴涨的客户需求和流量,在外界看来,梁文锋都需要用更多的钱来构建更充裕的算力资源。

2月份,甚至外界一度传出阿里将以100亿美元估值,投资DeepSeek 10亿美元占股10%的消息,但被阿里予以否认。

不过,据投中网消息,彼时DeepSeek确实在与部分投资人接触,希望以80亿美元估值寻求融资,当时国内AI六小龙中估值最高的也不超过40亿美元。

但事实是,爆火100天内,DeepSeek官方API一度因调用需求过高而暂停充值服务,APP也几度因服务繁忙而频频卡顿,但梁文锋除了带队优化服务体验外,并没有明显的算力扩建迹象,也丝毫未展现出对用户规模效应的追逐。融资一事被暂时搁置了。

这也使得DeepSeek成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司,还要加上一条,即暂未寻求外部融资的公司。



与在融资上的犹疑相反,梁文锋则继续坚持践行开源。2月底,梁文锋带领DeepSeek用一场开源周行动,通过开源FlashMLA、DeepEP通信库、DeepGEMM等多个代码库,向外界证明了DeepSeek小力出奇迹的原因所在,并首度对外揭秘了一系列针对英伟达H卡的算力优化方案。

同时,梁文锋继续沿着拟定好的节奏,追赶AGI脚步。

在内部规划中,梁文锋曾表示,团队押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。围绕这三条路,梁文锋在过去100天内动作频频。

2月18日,DeepSeek发布了最新的技术论文,以挑战Transformer架构最核心的注意力机制,让它能更高效地处理更长的上下文。

尤其值得一提的是,梁文锋的名字,也出现在了上述论文的共同作者里。文中,DeepSeek提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高。

除了带领团队创新算法,梁文锋还推动着公司在模型更新上的节奏。

语言模型上,3月25日,DeepSeek V3模型完成小版本升级,上线新版本DeepSeek-V3-0324,官方称其大幅提高了在推理类任务上的表现水平,中文写作和中文搜索能力也都得到了优化。

一个月后,数学和代码新模型DeepSeek-Prover-V2也来了。以DeepSeek-V3作为基础模型微调而来的Prover-V2,其参数规模扩展到了671B,相较于前一代V1.5版本的7B,参数规模增加了近百倍,这让其在数学测试集上的效率和正确率都变得更高。

C

尽管梁文锋还能保持自己的节奏推进模型更新,但外界的AI发展步伐已经被DeepSeek重构了。

在梁文锋验证成功低成本大模型训练方法后,AI行业开始分裂出两条进化路线:一是继续坚持Scaling Law,奉行大力出奇迹,堆高算力资源,训练更强大的基础大模型;二是追随梁文锋,以性价比思路开道,用更少资源训练更强大的专用模型。

围绕两条不一样的大模型进化路线,中美在AI发展策略上的分歧进一步扩大:硅谷AI创企继续追求Scaling Law,融资额屡创新高,前有OpenAI宣布完成历史性的400亿美元新融资,后有传闻中正在寻求200亿美元新融资的马斯克的xAI。

反观被冠以“AI六小龙”称号的国内AI创企,除了智谱拿下一些国资投资外,其他五家则罕有融资消息传出。

典型如零一万物,1月初,零一万物创始人李开复对外正式表态,自己将退出对AGI的追寻,未来公司主攻中小参数的行业模型。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”李开复说道。

DeepSeek爆火后,李开复更是将公司直接定位为一家开发AI应用的公司。

“AI六小虎”其他玩家也不同程度受到冲击:月之暗面暂停大规模广告投放,战略重心转向底层模型优化;MiniMax 和阶跃星辰目前都在探索Agent 相关的新应用;百川智能业务重心转向医疗;智谱AI重点布局政务、金融等市场。



国内科技大厂也不再对外讲述大力出奇迹的的AI叙事,而是纷纷跟梁文锋拼起了性价比。李彦宏更是在4月份的一场演讲中,点名DeepSeek慢且贵。

但DeepSeek红利之下,科技大厂又是结结实实享受到了一波红利。最大受益者腾讯,更是凭借率先接入DeepSeek的举动,助推旗下腾讯元宝一度超越豆包,成为国内AI助手下载量第一。

拥抱梁文锋之外,科技大厂的更大野心则在于超越梁文锋。直观表现之一是,在接入DeepSeek之外,科技大厂都纷纷加码了模型自研的决心。

从OpenAI到DeepSeek,这些惊艳业界的AI大模型公司,之所以能创新不断,更重要的是依靠了一帮才华横溢的年轻人。

作为DeepSeek创始人的梁文锋,更是将人才组织,视为自家在AGI大战中的护城河,不是闭源,更不是招募行业顶尖牛人。年轻人身上所具备的对创新的自信信念,成为梁文锋对这一群体青睐有加的重点所在。

现在,包括字节、腾讯、阿里、美团和京东在内的科技大厂,也想将年轻人身上的这种创新信念,汲取到自家公司身上,并由此开启了各自的“天才少年”招募计划。

但在科技大厂追赶梁文锋之前,全行业正在等待梁文锋带着自己的天才少年,发布新的R2模型。

参考资料:

《理想AI Talk第二季访谈实录》理想汽车

《DeepSeek-V3 模型更新,各项能力全面进阶》DeepSeek

《我所见过的梁文锋》聪明投资者

《跟DeepSeek做起邻居》投资界

《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》腾讯科技

《“我劝过梁文锋很多次,DeepSeek要融资”》投中网

《疯狂的幻方:一家隐形AI巨头的大模型之路》36氪

相关内容

热门资讯

美国医改、药价与选票 美国的医... 本文来自微信公众号:氨基观察,作者:武月,题图来自:AI生成对于药价,美国已经斗争了30年。1992...
深夜,美股下跌!阿里巴巴大跌8... 北京时间5月15日晚,美股三大指数开盘集体下跌。截至22:50美股三大指数中概股方面,截至22:50...
股市必读:贵州茅台(60051... 截至2025年5月15日收盘,贵州茅台(600519)报收于1632.01元,下跌0.18%,换手率...
霸王茶姬美股成功上市,隐身背后... 撰文:海川;编辑:木心 4月17日,霸王茶姬在纳斯达克上市,发行价28美元,此次IPO募资规模约4....
印尼网友质疑采购“阵风”:希望... 【文/观察者网 刘程辉】印巴冲突成中国武器“试金石”,歼-10C一战斩落“阵风”,也让这一法制战机的...
盘前:道指期货跌0.38% 油... 由于潜在的美伊核协议引发全球原油供应增加的预期,周四油价暴跌近4%。在经历了连续数周的反弹之后,股市...
对抗证监会,拒绝公安局,胆大妄... 紫天科技,这个名字乍一看很唬人,紫色有神秘、超自然的意思,再配上“科技”二字,感觉这家公司干的事情一...
投资者保护案例这10起有看点,... 金通灵和美尚生态财务造假、恒大地产欺诈发行债券、“牛散”使用145个证券账户操纵8只股票等遭严惩和追...
2027年目标千店,绿茶集团为... 作者:江夏原创:深眸财经(chutou0325)4年5次递表,绿茶集团终于即将叩响港交所大门。近日,...
上交所修订发布规范运作指引,推... 上海证券交易所5月15日,上海证券交易所(下称“上交所”)修订发布主板、科创板《上市公司自律监管指引...
失业没事,妈养你 失业没事,妈... 图:Jorey Hurley最近世界静悄悄。特朗普没有作大妖...中美关税战,原以为会撕X一段时间,...
贝壳一季度净收入233亿元,非... 新京报贝壳财经讯 (记者袁秀丽)5月15日,贝壳发布2025年第一季度财务业绩。一季度贝壳总交易额(...
新五丰:拟与科普利信成立合资公... 新五丰(600975)5月15日晚间公告,公司与法国科普利信集团(简称“科普利信”)拟成立合资公司开...
固收“名将”下一站定了!马龙因... 作者 |郑理来源 | 独角金融原招商基金“固收猛将”马龙跳槽的下一站,定了。近日,马龙正式入职天弘基...
第四范式一季度营收同比增长超三... 5月15日,人工智能企业北京第四范式智能技术股份有限公司(第四范式,06682.HK)发布2025财...
寻找确定性 寻找确定性 寻找确... 中国继续“以高质量发展的确定性应对外部环境急剧变化的不确定性”,投资配置方面,内需的对冲和国产替代或...
2025财年第四季度营收同比增... 相比大刀阔斧的“断舍离”,阿里巴巴-W(HK09988,股价128.9港元,市值2.46万亿港元)刚...
早盘大跌!此前5天3板,两股东... 5月15日,市场主要指数集体低开,上证指数开盘跌0.16%,深证成指开盘跌0.28%。 港口航运板...
小摩CEO警告:特朗普关税“余... 戴蒙警告称,全球贸易战虽然暂时缓和,但危机并未解除。 摩根大通首席执行官戴蒙表示,由于关税余波继续冲...
行长,你也不想坐上被告席吧 行... 昨天乃悟刷到一个视频,湖南省株洲市一名女子到当地农业银行帮母亲取钱时,银行工作人员告知需要本人才能办...
扎根一线的刘强东,给京东业绩刷... 「核心提示」时隔十年,刘强东再次亲自为客户送货,京东又找到了熟悉的感觉。作者 |陈法善刘杨5月10日...
新规后信评领域又现灰色操作 新... 作者 | 李览青编辑 | 方海平新媒体编辑丨实习生 张一珂自2021年证监会、交易商协会逐步取消债券...
部分工厂停产员工投诉,娃哈哈回... 红星资本局5月15日消息,今日,陕西娃哈哈乳品有限公司(以下简称“陕西娃哈哈”)两位一线生产员工告诉...
取款人死在银行门口,家属和银行... 人死了,但关于为什么会死,家属和银行的说法却大相径庭,一时间让这桩“取款命案”变得复杂了。事情是由死...
运动相机“老二”IPO:年入3... 定焦One(dingjiaoone)原创见习作者 | 何欣欣编辑 | 金玙璠经历四年IPO长跑的“国...
恒生银行回应裁员传闻:受影响的... 恒生银行恒生银行(0011.HK)回应裁员传闻。近日,有消息称,恒生银行将进行大规模裁员,个别部门削...
小微盘风格强势复苏,热点轮动后... 自4月8日A股市场震荡上行以来,小微盘风格再度席卷而来,超九成小微盘个股实现上涨。数据显示,截至5月...
欲开辟电影之外新“阵地” 儒万... 本报记者 张靖超 北京报道5月13日,万达电影(002739.SZ)发布公告,其子公司北京影时光电子...
最高法联合证监会发布23条意见... 资本市场迎来重磅新规,司法保障资本市场改革发展的“纲领性文件”出炉。为进一步强化司法与行政协同,加强...
【经纬晚班车】2024年证监会... 【晚间热点要闻】中国对巴西等5国实行免签政策自2025年6月1日起至2026年5月31日,对巴西、阿...