K2开源大模型,会是Kimi的DeepSeek时刻吗?
创始人
2025-07-14 11:22:59

K2 开源大模型无疑是当下备受关注的焦点。它拥有强大的语言处理能力和广泛的应用场景,就如同一颗闪耀的新星。而 Kimi 的 DeepSeek 时刻或许就在此降临,K2 开源的特性为 Kimi 提供了更广阔的发展空间和创新基础。它可以借助 K2 的力量,在自然语言理解、智能对话等领域取得突破性进展,让 Kimi 以更卓越的姿态展现其价值。无论是提升用户体验还是推动行业发展,K2 开源大模型都有可能成为 Kimi 开启 DeepSeek 时刻的关键契机,引领着人工智能的新潮流。


这一轮的AI“六小虎”,仍有四家在场上,都渴望一场DeepSeek式的胜利。最近一家证明自己的是MoonShot(月之暗面),它同样可以震惊一下硅谷。


周末,硅谷的开源社区、云厂商与AI开发者都在讨论MoonShot最新开源大模型K2。它的总参数规模达到了万亿级别(1T),是目前开源模型中最大的,激活参数320亿。


尽管理论上Meta的Llama4-Behemoth更大,为2万亿,但它是“期货”,也许不会再发布了;而DeepSeek的V3则是6710亿参数。OpenAI原本也有一款开源模型计划发布,但恰好在K2发布后,奥特曼再次推迟了。也许将两者联系起来是牵强的,但是,K2再次证明中国正在成为全球技术秩序重组中主导开放创新的关键力量,却是不争的事实。


K2的表现相当出色,尤其是在智能体相关任务领域。它在基准测试SWE Bench Verified(编程)、Tau2(智能体)中仅次于Claude 4 Opus,在AceBench(工具调用)中仅次于GPT-4.1。它也相当便宜,官方API服务与DeepSeek的R1相当,但最大支持上下文长度(128K)要高于R1(64K)。HuggingFace联合创始人Thomas Wolf认为,K2足以证明开源模型仍在继续挑战最新的闭源权重模型。



更直接且更有力的证据是,硅谷喜欢用它。发布后,它很快成为了HuggingFace上热度(trending)第一的开源模型。目前,新兴云厂商NovitaAI与Parasail已经将其托管上线。Perplexity首席执行官Aravind Srinivas在内部测试后,也决定尽快对其展开后训练;上一款被Perplexity纳入AI搜索的中国模型是DeepSeek的R1。


从V3/R1到M1再到K2,中国正在主导开源模型的技术趋势,而且它面向全球市场,包括硅谷的AI开发者们。Grok4发布了,但马斯克承诺的Grok3还未开源;OpenAI再次延期了它的开源模型;Meta的大模型已经落后于对手整整一代。远低于西方同行的低训练成本,让DeepSeek震惊了整个硅谷;此后,MiniMax(稀宇科技)M1与MoonShot的K2,再次证明了中国初创企业高效的开源创新。


中国本土AI卷得厉害。MiniMax(稀宇科技)与MoonShot(月之暗面)看上去一直都有点相互“不对付”。自去年底DeepSeek激活了开源模型的竞争后,年初,MiniMax开源了MiniMax-01,MoonShot发布了K1.5;上个月,MiniMax发布长上下文推理大模型M1与视频生成模型Hailuo02,MoonShot则先后拿出了编程模型Kimi-Dev-72B、深度研究智能体Kimi-Researcher,以及昨晚的K2。


但它们效率更高。无论是DeepSeek还是MiniMax或者MoonShot,它们的估值都远低于硅谷同行。其中,MoonShot已经披露的融资总额,约为15亿美元,不够OpenAI烧2个月,只够扎克伯格挖10来个人;xAI都有点熬不住,马斯克不得不让旗下另一家巨头SpaceX向其注资20亿美元。


这一次,K2震惊硅谷的后劲,或许将比R1来得更为猛烈。MoonShot比DeepSeek更早推动“执行”以更低的成本落地,冲击的不仅是AI应用的消费市场,还包括企业市场。由于兼容OpenAI和Anthropic的API格式,K2或将凭借其更高性价比,赢得硅谷AI应用开发者市场。


震惊硅谷的背后,是这一轮大模型浪潮中,中国AI初创企业普遍具备了底层创新能力。没有这个能力的团队,已经陆续掉队。


硅谷很多人都盼着K2的技术报告,看看MoonShot到底施放了什么魔法,让一切变得如此高效。而且,它的参数规模如此庞大,预训练数据也达到了15.5万亿token,理应存在不少技术障碍。Meta就处理不好分块注意力与专家选择路由等MOE架构的问题。


硅谷的AI研究者注意到,相比R1,K2的架构采用了更少的注意力头、更多的专家。前者可以提高长上下文效率,后者可以提升每个token的处理效率。这给MoonShot此前自研的MuonClip优化器,带来一点“扩展”上的麻烦。后者是该团队年初提出的,它在收敛速度和最终效果上都有明显的优势,计算效率是当前广泛使用的AdamW优化器的2倍。



但是MuonClip优化器论文作者之一的苏剑林,一开始也很清楚如果对优化器“大动干戈”并不容易。这次K2团队就遇到了MaxLogit爆炸问题,即注意力得分有时会变得非常极端,造成梯度不稳定,最终训练崩溃。小模型没有这个问题,传统AdamW优化器也没有那么明显。


为了配合改变,MoonShot在MuonClip优化器中融入了自研的QK-Clip技术。苏剑林将其类比为“抗生素”,也许并不是解决问题最精妙的方法,但往往是解决问题最直接有效的方法之一。


无论是MuonClip还是QK-Clip,都是MoonShot重视底层创新的产物之一。年初,当DeepSeek用NSA(原生稀疏注意力)架构挑战传统Transformer时,同一天,MoonShot也提出了MoBA(混合块注意力)架构。此前,英伟达推出Dynamo,致敬了DeepSeek不少开源技术,惹得Semianalysis感叹道这本质上是DeepSeek技术创新的民主化。事实上,当时Dynamo也致敬了MoonShot开源的突破内存瓶颈的相关技术MoonCake。


很长一段时间,MoonShot的注意力被DeepSeek夺走了。后者至今似乎无意做应用和产品,更具理想主义也更具话题性。MoonShot目前仍然存在明确的商业追求。同期的智谱与MiniMax已经计划上市,MoonShot还会远吗?


多智能体协作,或许是它赢得商业市场的关键。可以盘点一下MoonShot的资产:形式推理模式Kimina-Prover-72B(数理证明),编程模型Kimi-Dev-72B(开发工具),深度研究智能体Kimi-Researcher,多模态推理模型K1.5,视觉语言模型Kimi-VL。它们最终也许都会融入更擅长调度工具的K2中。MoonShot在技术博客中介绍称,K2的智能体能力,得益于大量的Agentic合成数据和通用的强化学习手段。


MoonShot与DeepSeek似乎还存在另一处不那么重要也不那么技术的相似点。它们的团队都相当文艺。DeepSeek宣布下场追逐AGI时,就引用了新浪潮电影人特吕弗(Truffaut)的话;R1的回答很多时候也文绉绉的。月之暗面的公司名,就来源于摇滚歌手平克·弗洛伊德(Pink Floyd)的专辑。这次,MoonShot显然对K2相当满意,成员在X上活跃起来,他们自称团队是一群热爱摇滚与电影人塔伦蒂诺(Tarantino)与库布里克(Kubrick)的科学家相互吸引组成的,“它的气味刚刚好。”


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

相关内容

热门资讯

素人女生被实名曝光,从校园处分... 近日,大连工业大学发布拟对一名女学生开除学籍的公告,引发广泛关注。该事件的另一方,是乌克兰前职业电竞...
「收盘」沪指涨0.27%,深成... A股三大股指7月14日集体高开。早盘指数分化,沪指在银行股走强下涨势明显。午后深成指一度转涨,两市成...
这6个快消人,入选福布斯最佳C... 导语:7月10日,2025福布斯中国最佳CEO榜单正式发布,一共有25位CEO 首次入选,19位CE...
【收盘】沪指涨0.27%,深成... A股三大股指7月14日集体高开。早盘指数分化,沪指在银行股走强下涨势明显。午后深成指一度转涨,两市成...
芦哲:特朗普“对等关税2.0”... 芦哲张佳炜(芦哲系东吴证券首席经济学家、中国首席经济学家论坛成员)核心观点核心观点:本周特朗普对等关...
董忠云:经济转型牛持续,军工和... 董忠云 符旸 庞晨 王警仪 杨子萌(董忠云 系中航证券首席经济学家、中国首席经济学家论坛理事)摘要美...
燕翔:策略框架之大势研判择时 ... 燕翔 系方正证券首席经济学家、中国首席经济学家论坛理事核心结论本文系统研究A股策略框架的大势研判(择...
【午盘】A股早盘指数分化,银行... A股三大股指7月14日集体高开。早盘在银行股再度走强带动下,沪指表现强势,而深成指和创指跌幅明显。 ...
独夫之心、上海小马哥、滤镜粉碎... 这个夏天,互联网内容创作的风吹到了浦江之滨。 在杨浦最新亮相的在线文娱产业载体“V聚场”的外墙上,写...
外卖补贴大战重启!| 新闻早班... 今天是7月14日 农历六月二十 星期一 要闻 美国一系列密集、高强度的关税行动,将全球贸易体系与金融...
宇树王兴兴等多位民营企业家明天... 据国新网7月14日消息,国务院新闻办公室将于2025年7月15日(星期二)下午3时举行“新征程上的奋...
惊天大逆转!连场让二追三!世联... 北京时间7月14日,2025年世界女排国家联赛第三周在阿灵顿城市继续举行,赵勇挂帅中国女排面对东道主...
中科曙光:7月11日融资买入1... 证券之星消息,7月11日,中科曙光(603019)融资买入1.55亿元,融资偿还2.35亿元,融资净...
构建多元化的新商学生态圈 上海... 深圳商报·读创客户端记者 吴素红 日前,“上海交通大学安泰经济与管理学院行业社群班研修基地”在海南博...
用友网络副总樊冠军2024年薪... 运营商财经网 实习生郑永杰/文 近期,用友网络发布了2024年年报,这一年公司营业总收入为91.53...
中国人寿发布理赔半年报,赔付件... 近日,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)...
中企新刊提前看(2025年第7... 亲爱的读者朋友,最新一期《中国企业家》杂志出刊了!本期都有哪些精彩的企业家故事?我们一起来看~《中国...
中美双方团队正在加紧落实伦敦框... 今天(7月14日)上午,国务院新闻办公室召开新闻发布会,海关总署副署长王令浚表示, 目前中美双方团队...
郭磊:穿越减速带,布局新均衡—... 郭磊 系广发证券首席经济学家、中国首席经济学家论坛理事摘要第一,我们可以把近年海外经济理解为“财政扩...
844美元的凉鞋,让Prada... 在时尚界,一款 844 美元的凉鞋引发了轰动。这款凉鞋以其独特的设计和高品质的材质吸引了众多目光。然...
红利也往香江去 红利也往香江去 2025年刚刚过半,险资已经举牌上市公司19次,接近去年全年,透着一股“钱多得烫手,得赶紧找个踏实地...
沪指涨0.27%,深成指跌0.... A股三大股指7月14日集体高开。早盘指数分化,沪指在银行股走强下涨势明显。午后深成指一度转涨,两市成...
康方生物股价创历史新高,市值突... 新京报贝壳财经讯 7月14日,康方生物(9926.HK)午后拉升,涨4.5%,报118.4港元,股价...
“中国第一县”20连冠:破解昆... 前不久,Meta创始人扎克伯格为了招募到顶尖人才,宣布会给到高达1亿美金的“签约费”。与此同时,Op...
利润大幅预增,这些机场谁最有优... 文丨泰罗近日,深圳机场发布了2025年上半年业绩预告,预计归属于上市公司股东的净利润为2.87亿元-...
半年度量化多头榜揭晓!深圳泽源... 近期,量化界关注度最高的事件,就是量化交易新规的落地!据业内人士解读,量化新规核心指向对高频交易的精...
账上现金2.23亿,60304... 本文来源:时代周报 作者:宋逸霆电接触材料行业标杆福达合金(603045.SH),欲将实控人之子旗下...
平安MVP王淑佼:廿八春秋,坚... “1997年12月,机缘巧合下,我加入了平安人寿厦门分公司。”那时的平安,还只是金融浪潮里的一叶小舟...
长城汽车被曝人事调整:魏牌/坦... 据多家媒体报道,长城汽车股份有限公司对管理人员进行更新,刘艳钊升任长城汽车副总裁,主管长城汽车传播中...
宗馥莉被同父异母三兄妹起诉追讨... 01.奥乐齐中国去年销售额翻倍02.萨莉亚前三财季净利创历史新高03.宗馥莉被同父异母三兄妹起诉04...