Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿
创始人
2025-06-17 20:23:35

近日,有消息称 Kimi 超过 DeepSeek 的新模型被指“套壳”Qwen。这一说法引发了广泛关注与争议。一方面,质疑者指出新模型在某些方面与 Qwen 存在相似之处,可能存在借鉴或模仿的嫌疑;另一方面,Kimi 方面则极力否认,称其新模型是经过独立研发和创新的成果。目前,此事仍在进一步调查和澄清中,各方观点不一,究竟是真正的创新还是所谓的“套壳”,还需更多的证据和深入的研究来判断。


昨天深夜,月之暗面发布了开源代码模型Kimi-Dev-72B。这个模型在软件工程任务基准测试SWE-bench Verified上取得了60.4%的成绩,创下开源模型新纪录,超越了包括DeepSeek在内的多个竞争对手。


然而,当开发者们深入了解这个模型时,发现它明确标注了:Base model:Qwen/Qwen2.5-72B。这引发了一些人的疑问,Kimi-Dev的优异表现,究竟是创新还是“套壳”?



Kimi-Dev-72B:基于Qwen打造的代码专家


Kimi-Dev-72B并非从零开始训练的模型。根据月之暗面在Hugging Face上的说明,这个模型明确标注了Base model:Qwen/Qwen2.5-72B。在官方博客中也写到:以Qwen 2.5-72B基础模型为起点,我们收集了数百万个GitHub问题单和PR提交作为中期训练数据集。这意味着Kimi-Dev是基于阿里巴巴Qwen团队的72B参数模型进行二次开发的。


从技术角度看,Kimi-Dev的创新主要体现在训练方法上。月之暗面采用了大规模强化学习技术,让模型在Docker环境中自主修复真实代码仓库的问题,只有当完整测试套件通过时才能获得奖励。这种训练方式确保了模型生成的代码不仅正确,而且符合实际开发标准。


在软件工程任务基准测试上,Kimi-Dev-72B展现了出色的性能。它在SWE-bench Verified上取得了60.4%的成绩,这是一个专门评估模型解决真实GitHub issues能力的基准测试。相比之下,前一名开源模型的成绩仅为约50%左右,Kimi-Dev实现了显著的提升。


在许可证方面,Kimi-Dev-72B的LICENSE.md文件显示其采用MIT协议发布。



但同时,月之暗面也在文档中明确说明:“Kimi-Dev-72B is built with Qwen-2.5-72B.Qwen-2.5-72B is licensed under the Qwen LICENSE AGREEMENT,Copyright(c)Alibaba Cloud.All Rights Reserved.Subject to the Qwen LICENSE AGREEMENT,Kimi-Dev-72B is under MIT license”。


也就是说Kimi-Dev-72B需要遵守Qwen-2.5-72B的原始许可限制,同时将自己的创新工作(即通过强化学习获得的微调权重)以MIT协议开源。这种做法在开源社区中被称为“delta权重”发布,即只发布相对于基础模型的增量部分。


一个“历史遗留”问题


争议的起源是社区对“月之暗面是否获得了使用Qwen-2.5-72B的特殊许可”的质疑。根据Qwen的许可协议体系,虽然较小的模型采用Apache 2.0协议,但72B这个旗舰模型采用的是《通义千问许可协议》(Qwen LICENSE AGREEMENT)。


这份协议规定,当产品的月活跃用户(MAU)超过1亿时,需要向阿里申请商业授权。考虑到Kimi作为热门AI助手的用户规模,可能将Kimi-Dev-72B引入其产品,这个限制条款引起了关注。


面对社区询问,Qwen团队负责人林俊旸(Junyang Lin)在X平台上的第一个回复简短而直接:"no we did not give them the permission"(不,我们没有给他们授权)。



这个回复立即引发讨论,然而,仅仅一个多小时后,林俊旸发布了第二条推文,改变了事件走向:“nvm this is our legacy issue.for qwen3,all are under apache 2.0 now.”(没事了,这是我们的历史遗留问题。对于qwen3,现在所有模型都采用apache 2.0协议了。)


林俊旸的第二条推文揭示了问题的本质,这不是月之暗面的违规使用,而是Qwen团队自身许可策略演进中的“历史遗留问题”。


具体来说,Qwen2.5系列采用了复杂的分级许可体系:大部分模型(包括0.5 B、1.5 B、7 B、14 B、32 B、VL、Omni等)采用Apache 2.0协议,属于完全开源许可,而3B和72B模型采用的是《通义千问许可协议》,包含商业限制条款。


这种分级许可策略在开源社区中并不罕见,目的是在推动技术普及的同时保护核心商业利益。但随着时间推移,Qwen团队可能意识到这种策略可能会阻碍生态发展。


在2025年4月底发布的Qwen3系列中,所有模型都已经采用了更加开放的Apache 2.0协议。Apache 2.0是一种广受欢迎的开源协议,它具有以下特点:


  • 商业友好:全球开发者、研究机构和企业均可免费下载并商用,无需额外申请授权。


  • 无限制使用:允许商业使用与二次开发,用户可以修改代码并以其他协议重新发布。


  • 社区驱动:通过降低使用门槛,促进更多开发者参与,推动技术的快速迭代和创新。


通过全面转向Apache 2.0,Qwen试图构建一个更加开放和活跃的AI生态系统。


在这种背景下,将Kimi-Dev基于“旧协议”模型的使用定性为“历史遗留问题”,实际上是一种着眼未来,支持生态伙伴的创新的选择。


开源协作的新范式


从技术角度看,这个案例反映了当前AI创业的现实。根据MosaicML的数据,训练一个达到GPT-3质量的30B参数模型需要约45万美元,而更大规模的模型如70B参数级别,成本会达到数百万美元。对于希望从零开始训练一个70B模型的机构来说,需要准备好数百万美元的基础预算,还需要配备顶尖的AI研究和工程团队,并且要考虑到随着技术发展,未来模型的训练成本可能会进一步攀升。


而月之暗面选择Qwen-2.5-72B作为基座并非偶然。根据多项评测,Qwen2.5系列在代码、数学、多语言等方面都达到了业界领先水平。站在这样的基座模型上,月之暗面可以在类似这样的研究项目中,将资源集中在自己的核心优势——强化学习训练方法上。


NebulaGraph GenAI负责人Wey Gu对硅星人表示:“我认为他们(Kimi)的开放权重、透明地分享paper的工作对社区是非常有益处的”,他还指出,Kimi-Dev分发MIT协议的delta权重文件没有问题,“不过模型的消费者是绕不过base model的Qwen license的”。


值得注意的是,尽管Kimi-Dev在SWE-bench上取得了优异成绩,但实际应用中仍有改进空间。有开发者测试发现,模型生成的代码有时需要调试才能运行,对复杂需求的理解也不够完整。这说明即使基于强大的基础模型,要做出真正优秀的垂直应用仍需要大量创新。


这场“套壳”争议最终成为了一个行业发展的缩影。开源策略正在从限制性许可向完全开放转变,这是赢得开发者生态的必然选择。同时,基于优秀基础模型的“二次创新”正在兴起,关键是找到自己的差异化价值。大厂与创业公司不再是简单的竞争关系,而是在开源生态中形成新的协作模式。


随着更多的开源模型采用Apache 2.0协议,类似的许可争议将越来越少。而像Kimi-Dev这样基于开源模型的专项优化案例,或许会越来越多,这正是开源AI生态繁荣发展的标志。

相关内容

热门资讯

“杀了夏明翰,还有后来人”,哈... 以色列总理内塔尼亚胡要除掉伊朗一把手哈梅内伊,他对美国广播公司主持人表示,只要干掉哈梅内伊,以色列和...
YC最新路演揭示AI创业生存法... 出品|虎嗅科技组作者|陈伊凡编辑|苗正卿头图|AI生成10年前的创投圈,如果创始团队拥有谷歌、Met...
比海底捞客单价高45%,“不服... 出品|达摩财经6月16日,巴奴国际控股有限公司(下称:巴奴毛肚火锅)向港交所递交招股说明书,计划在主...
这下,很多人又要返贫了 这下,... 国家统计局公布了70个大中城市5月份的最新房价数据。先来说明一下图表里面的名词的含义:环比,其比较对...
6.25 深圳,出海人年度集结... 在地缘冲突与市场洗牌的当下,品牌如何穿越周期、突围而出?当出海市场驶入“深水区”,我们必须开启一场实...
设立10亿元投资基金!东义、鑫... 在国家重点培育发展战略性新兴产业的背景下,设立基金支持前沿领域发展已成为热潮。 上月中旬,科技部、中...
6月17日沪深两市强势个股与概... 一、强势个股 截至6月17日收盘,上证综指下跌0.04%,收于3387.4点,深证成指下跌0.12%...
距离清盘只剩10天,海富通瑞鑫... 海富通基金旗下这只基金竟然连续40天"瘦身"到5000万以下,距离清盘只剩10个工作日! 海富通瑞鑫...
达达被京东私有化,从美股退市!... 北京时间6月17日晚间,中国领先的本地即时零售与配送平台达达集团(纳斯达克:DADA)宣布私有化交易...
科创板公司集中发布利好公告 回... 中经实习记者 孙汝祥 记者 夏欣 北京报道6月18日至19日,“2025陆家嘴论坛”将在上海举办,期...
从投资智驾到布局算力,集成灶“... 本报(chinatimes.net.cn)记者石飞月 北京报道 房产市场的持续低迷对厨电行业,尤其是...
原创 总... 据上观新闻援引美联社消息,加州率先对特朗普部分贸易政策发起法律挑战。这一 “打头阵” 的动作,背后的...
盛屯矿业集团股份有限公司 关于... 证券代码:600711 证券简称:ST盛屯 公告编号:2025-026 盛屯矿业集团股份有限公司 关...
原创 A... 6月17日晚间,湘潭电化发行的可转债电化转债公布中签结果。此次中签号码共有12.81万个,每个中签号...
盈信量化(首源投资)天岳先进通... 山东天岳先进科技股份有限公司(简称“天岳先进”)日前通过IPO备案,准备在港交所上市,若成功上市,将...
A股申报热潮来袭:半个月8家公... 来源|贝多财经 A股迎来申报热潮。 2025年6月以来,沪、深证券交易所出现密集申报,合计8家。截至...
大禹节水:总计回购约1547万... 每经AI快讯,大禹节水(SZ 300021,收盘价:4.58元)6月17日晚间发布公告称,截至本公告...
美国稳定币法案的意图与启示 美国新一届政府的加密货币政策框架已经回到“支持创新发展”的主线,该法案比较清晰地反映出了美国意在主导...
幼儿园一年关停2万所!连锁反应... 文丨西部君幼儿园数量和在园人数的“缩水”速度,比想象中还要快。最近,教育部公布了《2024年全国教育...
小米雷军两年五次感恩北京,有何... 尽管这些年大红大紫,但小米集团创始人雷军是懂得感恩的。6月16日,雷军在“活力中国调研行”活动上表示...
宝能汽车:公司未被清算解散,一... 新京报贝壳财经讯 6月17日,宝能汽车发表声明称,近期,有部分媒体歪曲事实,恶意报道公司及关联公司发...
中信建投预测下半年A股:先震荡... 上半年先有DeepSeek火爆出圈,后有税率超预期的贸易战,在偶发因素牵引下,全球资本市场巨幅波动。...
重回“三尺柜台”,京东在想什么... 时隔27年,中关村海开市场的那张三尺柜台,又“开业”了。6月14日,京东MALL北京双井店正式开门迎...
国内锂电材料企业积极投身海外建... 近日,国内锂电材料企业在海外市场动作频频,拿下国际大单的同时,也积极投身海外建厂。当前国内锂电企业正...
宝能汽车:公司未被被清算解散,... 6月17日,宝能汽车发布声明称,近期,有部分媒体歪曲事实,恶意报道公司及关联公司发布了解散、清算公告...
控股股东股权再被拍卖,启迪药业... 6月17日,启迪药业集团股份公司(简称“启迪药业”)发布公告称,因金融借款合同纠纷,其控股股东启迪科...
335亿佛山酱油女王,带队出海... 记者丨谢之迎 编辑丨谭璐“酱油女王”掌舵,海天味业要登陆港股了。6月16日,海天结束港股IPO招股,...
再收大额罚单!7万亿光大银行,... 欢迎关注我的好朋友:闺蜜财经图片由AI生成撰文|杆姐&编辑|爱丽丝中国人民银行辽宁省分行的一纸罚单,...
黄柠檬价格上涨3到5倍!消费者... 红星资本局6月17日消息,近日,有消息称,黄柠檬大涨价,有商户考虑用香水柠檬代替黄柠檬制作柠檬水。红...
地产二代手撕老爸?父亲节的散文... 本来觉得,父亲节没有必要了。但今天,我又觉得有必要了!因为猫姐的快乐,是一篇父亲节文章给的。没错,就...