大模型套壳往事
创始人
2025-07-14 17:43:15

在人工智能领域,曾有一段关于大模型套壳的往事。起初,一些不法商家为了快速获取利益,利用已有的大模型架构,稍加修改便冠以新名进行售卖。这导致市场上出现了众多看似相似却质量参差不齐的“大模型”产品。这种套壳行为不仅欺骗了消费者,也扰乱了正常的市场秩序。后来,相关监管部门加强了监管力度,加大了对套壳行为的打击,促使行业逐渐回归正轨,推动了真正有创新和实力的大模型的发展,以保障用户的合法权益和行业的健康生态。


华为盘古大模型涉嫌套壳阿里云Qwen大模型的风波,再次将模型“原研”与“套壳”的讨论摆上了台面。


回溯三年前,在ChatGPT刚刚开启大模型航海时代时,那时候的套壳还停留在小作坊山寨ChatGPT的阶段。调用ChatGPT的API,接口再包上一层“中文UI”,就能在微信群里按调用次数卖会员。那一年,套壳成了很多人通往AI财富故事的第一张船票。


同时,开始自主研发大模型的公司里,也不乏对ChatGPT的借力。这些企业虽然有着自研的模型架构,但在微调阶段或多或少利用了ChatGPT或GPT-4等对话模型生成的数据来做微调。这些合成语料,既保证了数据的多样性,又是经过OpenAI对齐后的高质量数据。借力ChatGPT可以说是行业内公开的秘密。


从2023年开始,大模型赛道进入开源时代,借助开源框架进行模型训练,成为了很多创业团队的选择。越来越多的团队公开自己的研究成果,推动技术的交流与迭代,也让套壳开发成为了更普遍的行为。随意之而的,争议性的套壳事件也逐渐增多,各种涉嫌套壳的事件屡次冲上热搜,随后又被相关方解释澄清。


国内大模型行业也在“套”与“被套”中,轮番向前发展着。


一、GPT火爆的那一年:山寨API和造数据


回顾AI的进化史,今天我们看到各类大模型都源自同一个鼻祖——2017年Google Brain团队发布的Transformer神经网络架构。Transformer的原始架构和核心包括编码器(Encoder)与解码器(Decoder),其中,编码器负责理解输入文本,解码器负责生成输出文本。


如今,在大型语言模型领域依然采用三大主流Transformer架构:Decoderonly(如GPT系列)、EncoderDecoder(如T5)和Encoderonly(如BERT)。不过,最受关注和应用最广泛的,是以Decoderonly为核心的GPT式架构,并不断衍生出各种变体。


2022年11月,基于GPT3.5,OpenAI推出ChatGPT,发布后短时间内获取数千万用户,让LLM正式登上公众舞台,也将GPT架构推为主流AI架构。随着ChatGPT打响大模型时代第一枪,各大厂商纷纷涌入大模型研发赛道。由于ChatGPT无法直接接入国内用户,一些小作坊也看到了套壳的牟利前景。


2022年底开始,许多山寨ChatGPT在互联网上涌现,此时的套壳基本不涉及任何二次开发,很多开发者直接包装一下API就拿出来卖钱。


2022年底至2023年,国内涌现数百个ChatGPT镜像站,包括名噪一时的“ChatGPT在线”公众号,运营者拿到OpenAI API,再在前端加价售卖。这种低劣的套壳手段很快就被监管部门发现,“ChatGPT在线”背后的上海熵云网络科技有限公司,就因涉嫌仿冒ChatGPT被罚6万元,成为首例“ChatGPT套壳”行政处罚。


另一方面,在同期发布的其他模型中,时常出现一些“GPT味”的回复,这些模型背后的企业也遭受了套壳质疑。


2023年5月,曾有网友发现,讯飞星火大模型在有些问答中会出现“我是由OpenAI开发的”等内容,由此一则关于“讯飞星火大模型被质疑‘套壳ChatGPT’”的消息传播开来。


这种情况并非个例,甚至2024年发布的DeepSeek V3也曾爆雷,有用户反映其在测试中出现异常,模型自称是OpenAI的ChatGPT。相关企业对这类情况的解释为,这可能是由于训练数据中混入了大量ChatGPT生成的内容,导致模型“身份混淆”。


互联网公开信息中AI内容日渐增多造成的数据污染,确实是可能造成这些“GPT味”对话的原因。但另一种可能是,模型研发团队在微调训练过程中,主动使用了通过ChatGPT等OpenAI旗下模型构造的数据集,也就是所谓的“数据蒸馏”。


数据蒸馏是大模型训练中一种高效低成本的知识迁移方式,这里的逻辑就像是用一个强大的“老师模型”(如GPT-4)生成大量高质量问答数据,而后将这些数据喂给一个“学生模型”去学习。


事实上,在GPT -3之后,OpenAI就彻底转向了闭源,所以对于想要自研大模型的竞争对手而言,并无法在基础架构层面套壳OpenAI的产品。这些企业或多或少也在模型技术上有一定积累,在架构层面纷纷推出自家的研究成果,但如果想要保证训练质量,从更强的模型产品那里以借力的方式获取数据无疑是一种捷径。


虽然借力ChatGPT/GPT-4生成训练数据是业内公开的秘密,但一直以来鲜有被披露的案例,直到那起著名的“字节抄作业”事件。2023年12月,外媒The Verge报道称,字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型,这种行为实际上已经违反了微软和OpenAI的使用条款。在此消息被披露不久,据传OpenAI暂停了字节跳动的账户。


字节跳动方面随后表示,这一事件是技术团队在进行早期模型探索时,有部分工程师将GPT的API服务应用于实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。按照字节跳动的说法,其对于OpenAI模型的使用是在使用条例发布之前。


对此,来自国内某头部AI企业算法部门的叶知秋向直面AI表示,业内的普遍认知是,数据蒸馏不应该被认为是套壳。“数据蒸馏只是一个手段,通过一个能力足够强的模型产出数据,对于垂直领域(的另一个模型)去做加训。”


加训(Continual Training)是一种常见的提升模型性能的方法。通过在新数据上继续训练模型,可以使其更好地适应新的任务和领域。“如果利用数据蒸馏做加训算套壳,那这个技术就不该被允许。”叶知秋解释道。


2025年的今天,大模型开发市场日渐成熟,直接调用API“山寨套壳”的模型产品已逐渐消失。在应用层面,随着AI Agent领域的快速迭代,调用API落地的AI工具已经成为常态,如Manus这类通用AI Agent逐步进入市场,AI应用层面的套壳已经成为了一种常见的技术手段。


而在大模型开发领域,随着开源时代的到来,模型开发领域的套壳,又陷入了新一轮的争论。


二、开源大模型时代:你用我用大家用


进入2023年,许多厂商选择开源方式公布模型方案,用以刺激开发者群体对模型/模型应用的迭代。随着Meta在2023年7月开源LLaMA 2,标志着AI行业也进入开源时代。在这之后,先后有十余款国产模型通过微调LLaMA 2完成上线。同时,利用开源模型架构进行二次开发,也成为了新的套壳争议点。


2023年7月,百川智能CEO王小川回应了外界对旗下开源模型Baichuan-7B套壳LLaMA的质疑。他提到,LLaMA 2技术报告里大概有9个技术创新点,其中有6个在百川智能正在研发的模型里已经做到。“在跟LLaMA 2对比的时候,我们在技术的思考里不是简单的抄袭借鉴,我们是有自己的思考的。”


就在几个月后,国内AI圈迎来了另一场更汹涌的套壳风波。2023年11月,原阿里技术副总裁、深度学习框架Caffe发明者贾扬清在朋友圈中称,某家套壳模型的做法是“把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。”事后证实,该信息直指零一万物旗下的Yi-34B模型,开源时代的套壳争议被搬到台面上。


一时间,关于零一万物是否违反了LLaMA的开源协议,在各大技术社区引发了激烈的争论。随后,Hugging Face工程师Arthur Zucker下场对这一事件发表了看法。他认为,LLaMA的开源协议主要限制了模型权重,而不是模型架构,所以零一万物的Yi-34B并未违反开源协议。


事实上,利用开源模型架构只是打造新模型的第一步,零一万物在对Yi-34B训练过程的说明中也作出了解释:模型训练过程好比做菜,架构只是决定了做菜的原材料和大致步骤……其投注了大部分精力在训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等方面的调整。



对于AI行业而言,推动技术开源化的意义之一是停止“重复造轮子”。从零研发一款全新的模型架构,并跑通预训练流程需要耗费大量成本,头部企业开源可以减少资源浪费,新入局的团队通过套壳得以快速投入到模型技术迭代和应用场景中。百度CEO李彦宏就曾表示:“重新做一个ChatGPT没有多大意义。基于语言大模型开发应用机会很大,但没有必要再重新发明一遍轮子。”


2023~2024年,AI行业掀起一场“百模大战”,其中的国产大模型大约10%的模型是基座模型,90%的模型是在开源模型基础上加入特定数据集做微调的行业模型、垂直模型。套壳帮助大量中小团队站在巨人的肩膀上,专注于特定领域的工程化和应用探索。


如今,在Hugging Face上按“热度”排序检索,以文本模型为例,DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5以及来自法国的Mistral系列模型均位居前列,这些开源模型的下载量在几十万到上百万不等。这表明开源极大地促进了行业的进化。目前,Hugging Face平台上共有超过150万个模型,其中绝大多数是用户基于开源架构的衍生产物——sft微调版本、LoRA微调版本等。


另一方面,随着LoRA与QLoRA等轻量化微调方案面世,定向微调模型的成本也在不断下降,为中小型团队进行模型开发提供了有利基础。麦肯锡在今年5月的一份调查显示,92%的企业借助对开源大模型的微调提高了24%~37%的业务效率。


2023年以来,模型开发门槛因开源不断降低,在迎来百模齐放的良好生态之余,也浮现出一些浑水摸鱼的恶劣套壳行为。


2024年5月,斯坦福大学的一个研究团队发布了一个名为LLaMA3V的模型,号称只要500美元(约人民币3650元)就能训练出一个SOTA多模态模型,效果比肩GPT-4V。


但随后有网友发现,LLaMA3V与中国企业面壁智能在当月发布的8B多模态开源小模型MiniCPM-LLaMA3-V 2.59(面壁小钢炮)高度重合。在实锤套壳抄袭后,该团队随后删库跑路。该事件一方面反映出,国产模型凭借其优异性能也成为了被套壳的对象;同时,也再一次引发了业界对开源时代套壳合规边界的思考。


对于AI行业而言,厂商通过开源以协作的方式可以对模型进行完善与优化,加速推动问题解决与技术创新。由于协作的工作模式和开放的源代码,开源大模型的代码具有更高的透明度,并且在社区的监督下,公开透明的代码能更容易进行勘误。


“透明度”是促进开源社区交流进步的关键,而这需要二次开发的团队和所有从业者共同维系。在LLaMA3V的案例中,斯坦福方面的研究团队只是对MiniCPM-LLaMA3-V 2.59进行了一些重新格式化,并把图像切片、分词器、重采样器等变量重命名。


原封不动地拿过来,并且作为自己的学术成果发布,相比起套壳,这更像是彻头彻尾的抄袭。


所以,套壳的道德边界,究竟是什么呢?


三、“套壳”和“自研”的矛盾体


“如果一个团队没有以原生模型的名义发表,就不能叫套壳,应该叫模型的再应用。”谈及套壳的定义,叶知秋这样说道。在加入大厂项目之前,叶知秋曾参与过一些创业公司的开源项目。他判断,业内有实力造基础模型的企业只会越来越少,加速利用开源技术是行业发展的必然,“毕竟核心技术上,只有那几家公司有。”


叶知秋口中的“核心技术”,指的是从零研发模型基础架构,并落实预训练流程的能力。相关报道显示,国内目前有完整自研预训练框架的大模型公司数量较少,仅有 5家左右。能“造轮”的企业屈指可数,对此叶知秋的解释是:“一些企业也有实力投入基础模型研究,但他们要考虑做这件事的收益。”


“演化和加训,严格来说和套壳是两码事。”叶知秋表示,像LLaMA这样的开源架构已经为业内熟知且熟用,很多成果都是在这一架构的基础上演化而来的。但同时他也强调,套壳合规与否在于冠名问题,利用开源技术就需要在技术文档中做出明确说明,“如果你是在一个已经开源的模型上进行加训,那就要在冠名和文档中体现这一点。”


对于如何理解大模型非法套壳,知识产权法领域的法律界人士秦朝向直面AI分享了他的看法。他表示,一些恶劣的“套壳”行为虽然在社会舆论上引发很多反响,在法律视角上却是另一回事。如何区分套壳和抄袭的界限、如何证明因为套壳行为导致了不当获利、如何证明具体的获利额度,这些问题都存在着一定的举证难度。“目前来说,这一类事情还处于一个灰色地带。”


秦朝进一步解释,所谓“借鉴”就是很难区分性质的套壳,一些开发者可能“借鉴”了不止一家企业,然后宣称是自研产品。除非是简单粗暴的纯套壳,不然很难去界定这一行为的恶劣程度。“而且大模型赛道发展速度极快,走法律流程下来可能要两三年,到那时技术都更新换代了。”


在技术圈语境下,自研是套壳的反义词。在叶知秋看来,如果一个模型团队宣称自己是全程端到端自研,势必会吸引业内同行审视的目光,未公开的套壳行为很难真正被掩盖。“一个开源的模型,其实一切信息都有迹可循,就是看业内人去不去挖掘而已。”


叶知秋进一步解释道,模型原研厂商都会在大模型组件中留下一些“标签”,当研发团队在发布论文时,这些“标签”就会被用以证明其采用了创新技术。因为一旦团队宣称这款模型是自研,那就需要说明,这款新的模型基于传统模型有什么不一样的地方。“如果没有,那大家必然会问,你的模型的架构是从哪来的?”


对于一些企业而言,套壳和自研的取舍,也往往伴随着成果产出的压力。另一位资深算法从业者向直面AI表示,借鉴架构/方案在业内并不稀奇,因为很多团队需要尽快解决0到1的问题。“在保留技术底线基础上,能有成果产出是最重要的。”


针对这一现象,叶知秋表示,一些头部企业虽然在其他领域实力雄厚,但在模型领域,可能在底层的训练逻辑上缺少经验和积累。对这些企业而言,充分利用开源技术套壳,可以更快完成从数据层面到模型层面的积淀。“像一些企业在某一领域的‘垂类’大模型,其实都有‘套壳’的成分在。”


“通过‘套壳’去做自己的开发,还是非常低成本高价值的。”作为从业者,叶知秋十分肯定开源为行业带来的积极影响。他认为,长期来看,单一企业很难在模型能力上建立壁垒,开源有助于整个行业的进步,实现更高的效率、更低的成本,去打造更多的模型能力。


关于开源时代的套壳争议,叶知秋表示,这些争议本质上还是跟企业的宣传口径有关,“用开源技术不丢人,前提是企业不要宣传是自研。”


(文中叶知秋、秦朝为化名)


本文来自微信公众号:直面AI,作者:李炤锋

相关内容

热门资讯

V观财报丨深康佳A:上半年预亏... 【V观财报丨深康佳A:上半年预亏3.6亿元-5亿元】深康佳A晚间发布《2025年半年度业绩预告》称,...
V观财报丨众生药业:上半年净利... 【V观财报丨众生药业:上半年净利预增94.49%-140.25%】众生药业14日发布《2025年半年...
卖得多却赚得少?水井坊:白酒行... 7月14日傍晚,水井坊(600779.SH)发布半年度业绩预告,预计2025年半年度公司实现归属于母...
“温州鞋王”的跨界生意走向终局... 7月13日晚间,康华生物(300841.SZ)发布《关于筹划控制权变更暨停牌的公告》。公告显示,7月...
保姆,才是豪门最强战神! 保姆... 这两天,大家都吃瓜都吃饱了吧!一个饮料商业帝国, 三个同父异母的兄妹,一场 高达20亿美元的家族财富...
V观财报丨绿地控股:上半年预亏... 【V观财报丨绿地控股:上半年预亏30亿元-35亿元】绿地控股14日晚间发布《2025年半年度业绩预告...
V观财报丨国海证券:上半年净利... 【V观财报丨国海证券:上半年净利同比预增159.26%】国海证券14日发布《2025年半年度业绩预告...
上半年净利预亏超百亿!万科:深... 7月14日,万科发布中期业绩预告,预计2025年1月1日至2025年6月30日归属于上市公司股东的净...
上半年净利预计下降90%,酒鬼... 7月14日晚,酒鬼酒发布2025年半年度业绩预告,预计归属于上市公司股东的净利润为800万元-120...
美国“国运股”暴涨背后,是人类... 美国“国运股”的暴涨看似是繁荣的象征,实则隐藏着人类最大的悲哀。在这背后,是华尔街的贪婪与操纵,金融...
信达地产:预计上半年亏损最多达... 7月14日,信达地产(600657.SH)发布2025年半年度业绩预告。根据公告,信达地产预计202...
华侨城:控股股东华侨城集团拟1... 7月14日,华侨城A(000069.SZ)发布公告,披露了其控股股东华侨城集团有限公司的股份增持计划...
滚动更新丨道指跌0.2%,中概... (持续更新中……)21:30 美股开盘丨三大指数涨跌不一 蔚来涨超5%美股三大指数涨跌不一,道指跌0...
又现AMC清仓转让 四川银行“... 7月14日,金融监管总局官网批复显示,同意四川银行入股长城华西银行9.4259亿股股份,入股完成后持...
阿里云正在成为中企AI出海的底... “阿里云,漂洋过海守护你。 拿着旧地图不可能发现新大陆。 近日,2025阿里云中企出海峰会召开。阿里...
下一代擎天柱要来了?马斯克:年... 擎天柱3将至——马斯克的人形机器人,正从科幻大步走向现实? 当地时间周一,马斯克在X上发帖称:“刚刚...
原创 央... 7月14日下午,央行公布最新的货币数据,其中最大的亮点是:6月末,广义货币(M2)同比增长8.3%,...
可孚医疗拟赴港二次上市:一季度... 瑞财经 刘治颖 7月11日,可孚医疗(SZ301087)公告,为加快推进公司全球化战略布局,提升公司...
消费增速放缓,这座一线城市要破... 继湖南、浙江、广东、上海等地陆续出台促消费政策后,北京也于近日对外发布《北京市深化改革提振消费专项行...
康隆达:预计2025年上半年净... 每经AI快讯,康隆达(SH 603665,收盘价:25.06元)7月14日晚间发布业绩预告,预计20...
*ST宇顺:拟以33.5亿元购... *ST宇顺拟以33.5亿元购买三家公司100%股权。7月14日晚间,深圳市宇顺电子股份有限公司(*S...
全球首例,为何又在深圳率先上演... 作者 | 傅斯特7月的深圳湾厦地铁站,出现了几位特别的“乘客”。外形萌萌的它们在地铁早高峰开始前,钻...
“牛市旗手”业绩爆发 券商行情... 21世纪经济报道记者 易妍君 广州报道受益于多重利好因素共振,近期,券商股表现强势。7月7日—7月1...
900亿市值通威股份,连续亏损... 【业绩】近期股价大涨的光伏龙头之一通威股份,上半年亏损扩大了。根据通威股份(600438)7月14日...
又一批业绩预增A股公司来了!7... 截至7月14日16时36分,已有多家上市公司发布业绩预告,其中74家的最高同比增幅实现翻倍,航天科技...
供销大集:预计上半年净利润45... 7月14日晚间,供销大集集团股份有限公司(供销大集,000564.SZ)披露业绩预告,公司预计202...
美国“国运股”暴涨背后,是人类... 长期征集日子很难,生活不容易,每个人都有自己的苦,有苦说不出的感觉,受苦的人最懂。和吃苦相比,有苦难...
北汽蓝谷:预计上半年净亏至少2... 资料图。本文来源:澎湃新闻 记者 吴遇利北汽蓝谷:规模经济未充分体现,预计上半年净亏至少22亿元与华...
面板企业上半年业绩分化,7月面... 今年上半年面板上市公司业绩分化,7月液晶电视面板价格跌幅扩大。面板龙头企业正通过控产、并购、加码高附...
豆豆钱用担保费推高利率至36%... 36%利率里面的“秘密”。手工劳动/兽妹手工编辑 /掘叔出品/独角兽观察今年来,在扩内需、促消费的宏...