相信大模型成本会下降,才是业内最大的幻觉
创始人
2025-08-21 11:04:52


很多 AI 创业者都笃信一件事——模型会降价。


只要模型降价,成本就会下降,今天勉强打平甚至亏损的收入状况,就会有好转。


生意就能做下去。


连 a16z 都在说,大语言模型(LLM)成本正以每年 10 倍的速度下降。


问题是,模型真的一直在降价吗?


Substack 专栏《mandates》的这篇文章,则认为模型成本其实并没有在下降。“成本下降 10 倍是真实存在的,但仅限于那些性能老旧的模型。”


“市场的需求永远只针对最好的语言模型。而最好模型的成本始终大致相同。”


如果现状就是这样,AI 创业的商业模式要怎么变?文章也进行了探讨,或许,又回到了那句老话——AI 创业,第一天就要考虑盈利。



以下为编译内容:


假设你创办了一家公司,并且清楚地知道消费者每月的付费意愿上限是 20 美元。你可能会想,这没关系,是典型的风险投资(VC)打法:按成本收费,牺牲利润来换增长。客户获取成本 (CAC)、客户终身价值 (LTV) 这些账你都算过了。但有趣的是:你看到了 a16z 这张图表,大语言模型(LLM)成本正以每年 10 倍的速度下降。



于是你盘算着:现在以 20 美元/月的价格做到收支平衡,明年模型成本降低 10 倍后,利润率就能飙升到 90%。亏损只是暂时的,盈利是必然的。


这个逻辑简单到连 VC 助理都能看懂:


  • 第一年:以 20 美元/月实现盈亏平衡;


  • 第二年:计算成本下降 10 倍,利润率达到 90%;


  • 第三年:开始挑选游艇。


这是一个可以理解的策略:“LLM 推理成本每 6 个月下降 3 倍,我们没问题。”


然而 18 个月后,利润率却前所未有地糟糕。Windsurf 公司已经倒闭清算,而 Anthropic 旗下的 Claude Code 也在本周被迫取消了其最初每月 200 美元的无限使用套餐。


行业仍在“亏损”。模型确实变便宜了,GPT-3.5 的成本只有过去十分之一。但不知为何,利润率反而变得更差了。


问题出在哪了?


一、降价的是旧版模型,但没人用


GPT-3.5 的价格是比以前便宜了 10 倍,但它也像 iPhone 发布会上的翻盖手机一样无人问津。


当一款新模型作为最先进技术(SOTA)发布时,99%的市场需求会立刻转移过去。消费者也期待他们使用的产品能做到这一点。


接着,我们来看看那些前沿模型的实际定价历史:



发现规律了吗?


  • 当 GPT-4 以 60 美元的价格推出时,即便上一代的 GPT-3.5 便宜了 26 倍,用户还是毫不犹豫地选择了前者。


  • 当 Claude 3 Opus 以 60 美元的价格登场时,即便 GPT-4 已经降价,人们还是转而投向了 Claude。


成本下降 10 倍是真实存在的,但仅限于那些性能老旧的模型。


所以,“成本会下降”策略的第一个“支柱”就站不住脚:市场的需求永远只针对“最好的语言模型”。而最好模型的成本始终大致相同,因为它就代表了当前推理技术的成本边界。


指着一辆 1995 年的本田思域说“这车现在便宜多了!”完全是文不对题。没错,那辆特定的车是变便宜了,但 2025 年款丰田凯美瑞的官方建议零售价依然是 3 万美元。


当你花时间与 AI 互动时,无论是编程、写作还是思考,你总会追求最高质量。没有人会打开 Claude 然后想:“要不我还是用那个差一点的版本来给老板省点钱吧。”我们是认知上的“贪婪生物”,总想要能得到的最好的“大脑”,尤其当另一端是我们宝贵的时间时。


二、模型的 token 消耗,远比我们想象得更多


我们可能会说,“好吧,但这仍在可控范围内,对吧?大不了就一直保持收支平衡?”但这种想法过于乐观了。


虽然每一代前沿模型的单位 token 价格确实没有变得更贵,但发生了另一件更糟糕的事:模型消耗的 token 数量出现了爆炸式的增长。


过去,ChatGPT 回答一个单句问题,回复也是一句话。而现在,一次“深度研究”会花 3 分钟规划、20 分钟阅读,再用 5 分钟为你重写报告;Claude 3 Opus 仅仅为了回答一句“你好”,就能运行 20 分钟。


强化学习(RL)和测试阶段计算量(TTC)的激增,导致了一个没人预料到的结果:AI 能处理的任务长度每六个月就翻一番。过去返回 1000 个 token 的任务,现在需要返回 10 万个。


来源:Metr(数据平台)


按照这个趋势推演下去,结果会变得非常惊人:


现在,一次 20 分钟的“深度研究”成本约为 1 美元。到 2027 年,我们将拥有能够连续运行 24 小时而不偏离主题的 AI Agent……如果结合前沿模型的固定价格,这意味着单次运行成本高达约 72 美元。而且是每天、每个用户,并能够异步运行多个 Agent。


一旦我们能够部署 AI Agent 异步执行 24 小时的工作,我们就不会只给它一个指令然后等待,而是会成批地调度它们。整个 AI 工作团队将并行解决问题,消耗 API 的速度堪比 1999 年的互联网泡沫时代。


必须强调的是,每月 20 美元的订阅费,甚至无法支撑用户每天进行一次 1 美元的深度研究。但这正是行业未来的方向。模型能力的每一次提升,本质上都是在提升其单次任务能“有效消耗”的计算资源量。


这就像你造出了一台更省油的发动机,然后用省下的能效去造了一辆怪兽卡车。没错,每加仑油能跑得更远了,但总油耗也增加了 50 倍。


这就是导致 Windsurf 陷入资金链危机的“流动性挤压(Short Squeeze)”,任何采用“固定费率订阅 + 高价值高 token 消耗功能”商业模式的初创公司,都正面临着同样的威胁。


三、200 刀的 Claude Max 会员,也抵不过“循环 tokens”用法


Anthropic 的 Claude Code “无限量套餐”实验,是目前业内应对这场危机最复杂的尝试。他们几乎尝试了所有计策,最终仍以失败告终。


他们的策略确实相当巧妙:


  1. 定价提高 10 倍:当 Cursor 定价 20 美元/月时,Claude Code 定价 200 美元/月,为亏损预留了更多缓冲。


  2. 根据负载自动切换模型:负载过高时,从 Opus 模型(75 美元/百万 tokens )切换到 Sonnet 模型(15 美元/百万 tokens );用 Haiku 模型进行阅读优化。这就像 AWS 的自动扩缩容,但服务对象是“大脑”。他们很可能将这种行为直接内置于模型权重之中,这将是一种我们可能会看到越来越多的范式转变。


  3. 将计算任务转移到用户设备:既然用户的 CPU 闲置着,何必再启动自家的沙盒环境?


然而,即便工程设计如此出色,token 消耗量依旧呈爆发式增长。


来源:Viberank(数据平台)


一百亿个 token,相当于在一个月内消耗了 1.25 万本《战争与和平》。


这怎么可能?即使用户每次运行 10 分钟,如何能消耗掉 100 亿个 token?


事实证明,10 到 20 分钟的连续运行时长,刚好够用户摸索出“循环 tokens”的用法。一旦 token 消耗与“用户在应用内的时长”脱钩,消耗就会失控:让 Claude 执行一项任务,检查成果、重构内容、优化细节,循环往复,直到公司破产。


用户摇身变成了“API 编排者”,用 Anthropic 的成本,24 小时不间断地运行代码转换引擎。从“聊天交互”到“Agent 自主运行”的演进一夜完成,token 消耗量激增 1000 倍,这是个阶段性的突变,而不是渐进式的。


因此,Anthropic 不得不取消无限量套餐。他们本可以尝试将定价提高到 200 美元/月,但关键的教训不在于“定价不够高”,而是在这个新世界里,没有任何订阅模式能够提供无限使用权限。


这意味着,在这个新世界里,没有一个固定的订阅价格是行得通的。商业模式的数学逻辑已彻底崩塌。


四、都知道要“按量定价”,但没人敢先尝试


这让其他公司陷入了两难境地。


每家 AI 公司都知道,基于使用量的定价能救他们,但也知道这不成立。当你以负责任的 0.01 美元/1000 token 定价时,你的竞争对手却提供每月 20 美元的无限量使用。用户会选择谁?


这是典型的“囚徒困境”:


  • 所有人都按使用量计费 → 行业可持续发展;


  • 所有人都按固定费率计费 → 陷入“比烂竞争”(race to the bottom);


  • 你按使用量计费,别人按固定费率 → 你独自出局;


  • 你按固定费率计费,别人按使用量 → 你短期获胜(之后仍会出局)。


因此,所有人都选择了“背叛”。所有人都补贴重度用户,发布指数级增长的图表,并最终发布“重要的定价调整”公告。


Cursor、Lovable、Replit,它们都清楚其中的数学逻辑。但它们选择了“当下求增长,未来求盈利,把破产问题留给下一任 CEO”。


说实话这或许是对的。在“圈地运动(land grab)”中,市场份额比利润率更重要。只要风险投资还愿意持续注资。


不妨问问 Jasper 公司,当资金链断裂时,会发生什么?


五、如何找到合适的商业模式?


有没有可能避开“token 流动性挤压”?


最近有传言称,Cognition 正以 150 亿美元的估值进行融资,而其年度经常性收入(ARR)据称不到 1 亿美元(我猜可能更接近 5000 万美元)。相比之下,Cursor 在 ARR 达到 5 亿美元、增长曲线更陡峭的情况下,也仅获得了 100 亿美元的估值。Cognition 的收入不及 Cursor 的八分之一,估值却是其 1.5 倍。风险投资公司掌握了哪些我们不知道的信息?两家公司都主打“AI coding Agent”,难道 Cognition 找到了跳出“死亡螺旋”的方法?


目前有三种可能的出路:


从一开始就采用“按使用量计费”没有补贴,没有“先获取、后变现”的说法,只有诚实的经济模式。这在理论上听起来很棒。


但问题是:我们现在找不到任何一个采用“按使用量计费”且实现爆发式增长的消费级 AI 公司?消费者讨厌计量收费。他们宁愿为无限量套餐多付钱,也不愿意被意料之外的账单吓到。每一个成功的消费者订阅服务,Netflix、Spotify、ChatGPT,都是包月制。一旦你引入计量收费,增长就会停滞。


建立极高的切换成本,从而获得高利润率这是 Devin 的看好的方向。他们最近宣布了与花旗银行和高盛的合作,将 Devin 部署到每家公司的 4 万名软件工程师中。按每月 20 美元计算,这是一个千万美元级别的项目。


但问题来了:你更愿意从高盛获得 1000 万美元的 ARR,还是从专业消费级开发者那里获得 5 亿美元? 答案是明显的:长达六个月的落地实施、合规审查、安全审计、繁琐的采购流程,意味着从高盛那里拿到的收入虽然难以争取,但一旦到手,客户就几乎不会流失。


你只有在银行的唯一决策者将自己的声誉押注在你身上时,才能签下这些合同,而所有人都会竭尽全力确保项目成功。 这也是为什么除了科技巨头外,最大的软件公司几乎都是“核心系统服务商”,例如客户关系管理(CRM )、企业资源计划(ERP )、电子健康记录(EHR)系统。


它们的利润率都能达到 80%-90%,因为客户切换成本越高,对价格的敏感度就越低。当竞争对手出现时,你的产品早已经深度嵌入到客户的业务流程中,切换供应商需要再经历一个为期六个月的销售周期。不是不能换,而是客户的 CFO 宁愿辞职,也不愿再经历一次供应商评估。


进行垂直整合,从基础设施上盈利这是 Replit 的玩法:将代码 AI 工具与应用托管、数据库管理、部署监控、日志记录等服务捆绑销售。在每个 token 上亏一点钱,但在新一代开发者的技术栈中,从其他所有环节捕获价值。看看 Replit 的垂直整合程度就知道了。


来源:@mattppal(推特用户)


将 AI 作为“引流品”,推动用户使用其具有“类 AWS”竞争力的其他服务。你卖的不是“推理服务”,而是其他所有服务,推理成本只是营销开支。这个模式的巧妙在于,代码生成自然会增加对托管服务的需求。每个应用都需要运行环境,每个数据库都需要管理,每次部署都需要监控。就让 OpenAI 和 Anthropic 去把推理服务的价格竞争到零,你去做别的事情。


那些仍在坚持“固定费率、不计成本增长”模式的公司?它们只是“行走的僵尸”,只不过它们的葬礼定在了今年第四季度,并且成本高昂。


六、结语


我们不断地看到有创始人引用“模型明年会便宜 10 倍!”这种说法。但到那时,用户会期望得到 20 倍以上的回报。


还记得 Windsurf 吗?由于 Cursor 带来的对盈亏平衡的压力,他们根本找不到方法破局。即便是像 Anthropic 这样的公司,拥有全球最垂直整合应用层,也无法让一个提供无限使用量的固定订阅模式运转起来。


虽然《levered beta is all you need》文章的核心结论:“早入局胜过聪明”,仍然成立,但“没有规划地早入局”,只会更早地失败。谷歌不会为“负利润率业务”开出 24 亿美元的支票;当“以后再说”意味着你的 AWS 账单已经超过你的收入时,“以后”便不复存在。


那么,在这样的环境下该如何创业?简而言之,成为“新云厂商”(neocloud )。至少,模型明年的成本会降至 1/10。


本文来自微信公众号:Founder Park,编译:Founder Park

相关内容

热门资讯

“股神”卷走4500万元跑了 作者:牛钰 经济观察报记者发现,诈骗团伙伪装成“民间股神”“游资”或冒充券商人员,通过社交平台、电商...
普通人创业新路径:把公众号变为... 普通人用自媒体创业,就是玩法,有些时候把脑子打开,不用非要去模仿高大上的作品和内容,有时候更不需要你...
常铝股份上市18周年:归母净利... 常铝股份自2007年8月21日上市至今,已迎来18周年。从上市首日收盘价为33.9元、市值57.63...
全球第一!港交所,最新发声 【导读】香港交易所:IPO重回全球榜首!外资参与度显著提升! 中国基金报记者 郭玟君 8月20日中午...
AI重构社交泛化生态,应用创新... 随着全球化及数字化浪潮的深度渗透,用户娱乐互动及内容消费方式正发生结构性迁移。线上化、交互化与沉浸式...
润本股份:8月20日融资净买入... 证券之星消息,8月20日,润本股份(603193)融资买入2086.11万元,融资偿还1832.25...
多点支撑释放增长动能,平安好医... 8月19日,平安健康医疗科技有限公司(1833.HK,以下简称“平安好医生”)公布2025年上半年业...
贝伐单抗(Bevacizuma... 【摘要】 一种以脂质体为基础的纳米递药系统,包载抗炎药物地塞米松,脂质体表面通过共价方式修饰抗VEG...
恒兴新材:8月20日融资买入2... 证券之星消息,8月20日,恒兴新材(603276)融资买入225.26万元,融资偿还266.98万元...
中天科技:8月20日融券卖出1... 证券之星消息,8月20日,中天科技(600522)融资买入1.67亿元,融资偿还1.68亿元,融资净...
美国扩大钢铝关税清单范围 企业... 本文转自【新华社】; 新华社纽约8月19日电(记者刘亚南)美国商务部工业与安全局19日发布公告,宣布...
新洋丰:8月20日融资买入38... 证券之星消息,8月20日,新洋丰(000902)融资买入3825.14万元,融资偿还3968.49万...
身家10亿起的阿里码农,转投杭... 作者:蔡婷 鄢子为 编辑:鄢子为 图源:视觉中国 阿里码农元老,换了新工作。 8月18日,杭州贝联珠...
2025中国(郑州)国际期货论... 受邀嘉宾在2025中国(郑州)国际期货论坛主论坛上作主题分享。本版图片均为中国(郑州)国际期货论坛主...
青银理财再迎高管换防潮:副总唐... 业绩有所承压,高管换防潮一波接一波。文/每日财报 张恒作为山东省唯一一家城商行理财子公司,背靠青岛...
市值暴增6000亿!富士康“不... 近日工业富联(富士康在国内的上市公司)股价盘中创出了历史新高,最高达到了48.96元/股,市值超越了...
口子窖营收净利双降,省内外市场... 作者 | 郝文编辑 | 趣解商业资讯组8月19日,口子窖发布2025年半年度报告,其收入25.31亿...
联手大股东拟发行不超30亿资本... 东吴人寿偿付能力承压下行,发债“补血”箭在弦上。文/每日财报 栗佳近日,又有一家寿险公司拟发行资本...
电力供应格局变了 电力供应格局... 2025.08.21本文字数:2065,阅读时长大约3分钟作者 |第一财经 李秀中“西电东送”经过2...
液冷概念退潮,多只牛股跌停,机... 液冷板块的退潮来得迅猛而惨烈。8月21日,液冷服务器概念集体跳水,飞龙股份(002536.SZ)腾龙...
机器人完成24小时行走!智元机... 红星资本局8月21日消息,今日,智元机器人首届合作伙伴大会在上海举办,期间智元机器人合伙人、具身业务...
老铺黄金:金价“熄火”,“黄金... 北京时间8月20日下午,老铺黄金(6181.HK)发布了2025年H1业绩,由于此前披露过盈利预告,...
印媒曝料:印度计划放宽对中企高... 据印度《经济时报》8月20日援引知情人士报道,印度计划放宽对中国企业高管的签证限制。报道称,高级职位...
急缺,“比找投资还难”!日薪最... “‘董事长父亲’还没找到合适人选!”近日,浙江横店某短剧剧组副导演拿着对讲机焦急呼喊这样的场景如今在...
午报:沪指半日涨0.35% 数... 8月21日,市场早盘震荡分化,沪指小幅上涨,创业板指探底回升。沪深两市半日成交额1.57万亿元。截至...
美洲市场增速超10倍,泡泡玛特... “我们去年(营收)是100亿元,今年希望能够做到200亿元,当然感觉今年300亿元也很轻松”。8月2...
刚刚,大爆发!资深大佬强CAL... 中兴通讯每次涨停都特别会挑时候!8月21日,中兴通讯AH股盘初大涨,A股一度涨停,截至午间收盘涨幅回...
超大城市,正在拼命建“第二高铁... 本文来自微信公众号:国民经略 (ID:guominjinglve),作者:凯风,题图来自:视觉中国高...
“慢动作蹦极都没太奶下地窖刺激... 去年还在全国练兵的特种兵们今年纷纷转向,爱上了“窝囊废旅游”。五天爬五岳、一天玩一座城是不要命,在贵...
华南城:境内子公司业务维持正常... 8月20日,华南城(01668.HK)发布公告称,清盘人谨此通知各股份持有者,自获委任以来,清盘人及...