心言集团高级算法工程师在Qwen 3发布之际再谈开源模型的生态价值_财经热点

心言集团高级算法工程师在Qwen 3发布之际再谈开源模型的生态价值

创始人

2025-05-07 04:13:02

4月29日，阿里新一代的大模型 Qwen 3发布。以 DeepSeek+Qwen 的中国开源组合，正在以中国开源生态“双子星”之势，取代过去 Llama 为主，Mistral 为辅的开源生态。 Qwen 3 发布后，Founder Park采访了不同行业的 AI 创业公司代表，就开源闭源如何选择、模型的微调、模型能力瓶颈，以及大模型创业的坑等方面进行了访问。心言集团开源布道师、高级算法工程师“左右”在接受采访的过程中，从心言集团的实践视角剖析了中国开源模型的崛起路径，并分享了自己在开源生态赋能下的业务探索与技术思考。

以下为采访实录：

开源、闭源模型如何选择？

左右：从我们目前的业务角度看，绝大部分（可能 90% 以上）需要使用我们自己微调（fine-tuned）的模型，因此主要是本地化部署后供线上使用。同时，对于某些特定任务，比如数据构造、数据蒸馏，或者需要利用特定大模型（如 GPT、豆包、Qwen）的能力时，我们会直接调用它们的 API。

本地部署的主要是基于 Qwen 的微调模型，根据不同的业务入口，我们会使用不同量级的模型。常用的是 7B、32B 和 72B 这几个版本。此外，我们还有一些具身智能的业务，考虑到用户隐私和多模态处理需求，会采用更小量级的多模态模型，比如 0.5B、1.5B 等。7B 模型主要用在对并发要求非常高，但对模型本身能力要求没那么极致的业务场景。选用 7B 的原因有三：一是推理速度快；二是部署成本相对较低；三是在兼顾性能和速度方面，它比较适合我们的某些特定任务。

至于为什么选 Qwen 模型，主要有以下几点考虑：

生态系统成熟度与稳定性： Qwen 的生态相对完善和稳定，包括推理框架（如 vLLM， SGLang 等很早就适配）、微调工具链以及其他配套设施。相比之下，有些模型（比如 DeepSeek 的早期大参数版本）生态成熟和稳定使用可能需要更长时间。

技术能力与业务契合度：我们做的是情感陪伴、泛心理相关的业务，主要面向国内用户。

首先排除了 Llama，虽然它生态好，但在中文能力，尤其是泛心理、情感陪伴这些垂直领域的能力上可能不足。

Qwen 对中文支持较好，并且在其预训练数据中也包含了一些泛心理、情感陪伴相关的内容。基于这样的模型进行微调，更容易贴合我们的业务需求。

模型系列完整性：我们的业务涉及从 0.5B 到 72B 的多种尺寸。目前来看，只有Qwen提供了这样完整的尺寸系列。如果不同尺寸用不同模型（比如 7B 用 Llama，72B 用 Qwen），会增加微调成本，需要在不同模型之间反复测试数据和超参数等。全系列使用 Qwen 系列，模型同宗同源，试错成本相对较低。

开源的持续性与可信赖度：我们之前用过零一万物的模型，但后来他们在开源方面的策略调整了，这对我们来说比较被动。阿里（Qwen）在开源上的举措让我们觉得比较可靠，相信他们会持续投入开源，这对我们长期依赖其模型进行开发是重要的保障。

当前大模型的使用和微调，面临的挑战有哪些？

左右：分开说一下，因为我们有具身智能和线上互联网业务两块业务。

在具身智能方面，主要挑战是推理成本和生态适配。

成本：为了隐私，模型需本地部署。如果用英伟达方案，端侧推理卡很贵（几百到几千元），远超机器人本身的成本。推理速度也可能不够快。

生态适配：如果换用国产算力芯片降低硬件成本，又会面临生态不完善的问题。比如，让国产芯片兼容最新的 Qwen 模型（特别是像 Qwen2-VL 等多模态模型），适配周期可能很长（比如一两个月），我们等不起。由谁来做软硬件适配（硬件厂？模型厂？我们自己？）也是个问题，我们自己做成本很高。

在线上互联网业务方面，主要挑战是模型能力和推理成本/延迟。微调成本相对较好。

模型能力：我们做情感陪伴，对情感的细粒度理解要求非常高。模型需要准确捕捉用户复杂的情感状态。比如，用户语音内容积极但语气糟糕，如果只靠 ASR 转文本，会丢失大量情感信息。这就对模型的多模态理解能力提出了很高要求（结合文本、语音、视觉等）。

推理成本/延迟：我们的用户量和 AI 使用量增长很快，推理成本压力大。尤其是在高峰时段（如凌晨 0-1 点，峰值可能是平时的 3-4 倍），需要有效调度潮汐算力，以低成本覆盖流量洪峰，同时保证模型和算力能承载。

当前模型的能力，满足你们的业务场景需求了吗？

左右：我们做的业务场景专注于情感、情绪化的泛心理应用场景，大多数模型厂商在预训练或后训练阶段都不会特别关注这部分数据。另外，即使是数据合成或蒸馏，其结果和真实用户的查询之间仍有很大差距。这就是我们坚持要做 Post-training（后训练/微调）的原因。

我们对基础模型的要求主要是通用能力（General Ability），而不是特定领域能力（Domain Ability）。如果基础模型的通用能力足够好，我们在做 Post-training 时就更容易把它拟合到我们想要的方向。如果通用能力不行（像 2023 年那样），即使有高质量的领域数据也很难调好。

而且需要注意，针对特定领域（如泛心理、情感陪伴）做 Post-training，通常会对模型的其他通用能力（如代码、数学）造成一定的损害。我们的目标是把这种损害控制在可接受范围内（比如通用指标下降 2 个点以内），同时在我们的核心领域能力上实现显著提升（比如比通用模型高 10 个点）。最近我们也会把内部的泛心理基座模型面向社区开源，反哺开源社区，推动此方向上的技术发展。

如何看待目前以 DeepSeek、Qwen、Llama 为代表的开源模型的发展？

左右：对开源模型整体的期待是尽可能追平闭源顶尖模型（如 Claude， GPT-4/4o）。虽然现在还没有完全追上，但开源模型比闭源更 Open，至少能拿到权重。

更具体的期待是希望它们能 release 更多的技术细节。Llama 3 和 DeepSeek 的技术报告相对详细，希望 Qwen 也能更开放地分享技术路线、探索出的数据配比等。

从差异性看：

DeepSeek 更激进、理想化，在 MoE、原生多模态、代码等方面探索较前沿。

Qwen 和 Llama（Qwen 早期 follow Llama，现在已逐渐超越）更注重社区和通用性，需要考虑更广泛的用户和场景，技术选型上可能相对稳健。

这种差异化定位在开源社区里是正常的。

觉得当前大模型创业最容易被忽视的坑是什么？

左右：我觉得一个比较大的问题是模型与产品的适配度，以及对 AI 在产品中角色的理解。

很多人认为 AI 来了，可以用它重做一遍旧需求，或者简单地把 AI API 接到旧产品上。但我认为 AI 更多是后端能力，是处理信息的工具，而不是直接交付结果的前端界面。

现在很多产品给用户的感觉是直接在和一个聊天机器人对话。但在我看来，AI 应该藏在后端，用来深度处理用户的输入，实现真正的个性化，然后再交付结果。

例如，在情感陪伴中：

用户发来语音，AI 不仅是转文本，更应该分析语气、语调，并将这些情感信息融入 Prompt。

AI 应该分析对话上下文的逻辑、情绪变化，让下一轮的回复体现出这种个性化，而不是千篇一律地遵循某个 System Prompt。

很多开发者追求简单的「端到端」，认为大模型能简化一切。但在很多领域（尤其情感），原本需要复杂处理的环节，现在依然需要，甚至可以借助 AI 做得更精细。直接用 AI 替代这些环节，可能导致产品缺乏深度和个性化。

我认为正确的模式应该是「X + AI」**，而不是「AI + X」。核心是挖掘和理解用户需求（X），然后思考如何用 AI 更好地解决这个需求。而不是有了 AI 技术，再去找一个场景（X）去套用。

一个重要的观察指标是用户留存。很多 AI 产品（如一些角色扮演应用）留存很差，这往往意味着产品没有抓住用户的真实痛点，个性化做得不够好。如果你的产品是基于真实需求（X）构建的，留存通常不会是核心问题。现在很多产品可能是在做一个伪需求。

随着Qwen、DeepSeek等中国开源模型在国际舞台崭露头角，一场由技术生态驱动的全球化进程正在加速。心言集团的实践表明，开源不仅为中国企业提供了弯道超车的技术路径，更创造了“全球协作-垂直创新-生态反哺”的良性发展模式。在这场静水深流的技术革命中，心言集团也将聚焦泛心理发展的AI化与具身化，继续以开源为舟，以创新为帆，驶向情感计算领域的星辰大海。

上一篇：溢价30%收购！汉堡王投资人买下斯凯奇

下一篇：深交所2025年首份发审动态出炉解密两大IPO现场督导案例剑指何方最新深交所深度报告深交所最新公告查询

心言集团高级算法工程师在Qwen 3发布之际再谈开源模型的生态价值

相关内容

热门资讯