当全世界向云端大模型狂奔,苹果选择回归设备 当全世界向云端大模型狂奔,苹果选择回归设备
创始人
2025-09-04 15:42:24



几天前,苹果在 HuggingFace 上全面开源了视觉语言模型 FastVLM 和 MobileCLIP2,再次在 AI 社区掀起震动。

这两款模型的直观特征只有一个字:快。FastVLM 在部分任务上的响应速度比同类模型快出 85 倍,并且能在 iPhone 这样的个人设备上流畅运行。但这并非一次孤立的技术秀。

与 MobileCLIP2 等开源模型一道,FastVLM 构成了苹果“B 计划”的核心:端侧 AI 小模型战略。

01

苹果亮剑小模型

用最通俗的语言解释FastVLM。它是一个“看得懂图、读得懂话”的多模态模型,重点有2个,1个是名字里的“Fast”——快;另一个则是“VLM”。

正如其名,FastVLM最引人注目的特点就是“快”。这种快并非简单的性能提升,而是数量级的飞跃,使其能够在手机、电脑等个人设备上实现以往需要云端服务器才能完成的实时任务。



最直观的体验是,在生成第一个 token 的响应速度(TTFT)上,FastVLM比同类模型LLaVA-OneVision-0.5B快了惊人的85倍,而其负责“看图”的视觉编码器规模却缩小了3.4倍。即使是其更强大的7B(70亿参数)版本,在与近期备受关注的Cambrian-1-8B模型对比时,性能更胜一筹,同时TTFT速度快了7.9倍。

FastVLM之所以能实现速度与性能的平衡,其技术核心在于一种新型的混合视觉编码器 FastViTHD。从技术角度看,这种编码器能够输出更少的 token,并显著缩短高分辨率图像的编码时间。



图注:FastVLM性能表现

传统的视觉模型在处理一张高分辨率图片时,会将其分解成成千上万个小块(patches),然后将这些小块转化成“视觉词汇”(tokens)交由语言模型解读。图片越清晰,细节越多,产生的tokens就越多,这会给后续的语言模型带来巨大的计算压力,导致处理速度变慢,尤其是在手机这样的资源受限设备上。

而FastVLM的混合视觉编码器则结合了两种技术路径,将卷积网络和Transformer融合到了一起。从而,能够在不牺牲关键视觉信息的前提下,输出更少但更精华的 tokens。

因此,其作为VLM (视觉语言模型),它不仅快,理解图像和文字的综合能力也同样出色,能够在保证速度的同时,维持极高的准确性。



图注:FastVLM架构

目前,FastVLM 已经上线多个尺寸,包括:0.5B、1.5B、7B版本:



凭借这样的能力,FastVLM已经可以支持无需任何云端服务,端侧的实时浏览器字幕等功能。

目前,HuggingFace平台Apple开源FastVLM页面已经提供了试用平台。链接如下:
https://huggingface.co/spaces/akhaliq/FastVLM-7B

我们同样上手体验了FastVLM的强大功能。我们选取了近期在社交媒体上广为流传的“马斯克计划将擎天柱(Optimus)机器人送上火星”的视频作为测试材料。整个过程非常直观,上传视频后,只需点击左侧的“Analyze Video”,分析就开始了:



FastVLM的处理速度确实令人印象深刻。我们粗略计时了下,单帧画面的分析时间仅在1-2秒,甚至更短之间,系统在不到几秒内就完成了对8个关键帧的提取和解读。

以下是FastVLM捕捉到的画面及其生成的描述:



图注:FastVLM捕捉的画面

给出的结果则是:



我将生成的画面分析结果翻译成了中文:

第1帧: 一则 2026 年的火星广告,展示了站在火星上的机器人。


第2帧: 一个大屏幕,上面显示着一台抬起一条腿的机器人,以及年份“2”。


第3帧: 一位穿着黑色印花T恤的男子手持麦克风。


第4帧: 一群人正注视着屏幕,上面显示“25 ton on”。


第5帧: 两枚火箭立于红色土壤之上,画面上有“28 in”的水印。


第6帧: 观众正在观看投影屏幕,上面显示着火星上的 Qwen 机器人。


第7帧: 观众在观看屏幕,播放的是电影《火星人玩转地球》(Mars Attacks)的片段。


第8帧: 一群人正在参加星舰(Starship)活动的演示。

最关键的是,你会发现,FastVLM在追求极致速度的同时,并没有牺牲准确性。经过逐一比对,我们发现生成的描述与每一帧的画面内容都比较吻合。

除此之外,苹果同样准备了一个叫做FastVLM-Web GPU的项目,它可以通过摄像头实时分析视频流。你可以在下面这个位置找到它,点击即可使用:



由于它的能力很强,吸引了各路网友前来试用,也有X大神@GabRoXR搞出了很有趣的测试Demo。比如,通过设置一个OBS虚拟摄像头,将其直接接入MetaQuest头显中,做一个实时字幕应用:



值得注意的是,FastVLM对于本地设备的硬件能力要求非常低,比如,一个X网友@njgloyp4r仅通过Chrome浏览器和一块RTX 3090显卡,配合OBS虚拟相机及系统截图工具,就能手搓出一个实时识别画面的工作流:



尽管FastVLM相关文件在四个月前就已悄然现身GitHub,但此次在HuggingFace上的全面补齐,依旧引发了业界的广泛关注和热烈讨论。

其次,FastVLM的开源并非一次孤立的技术展示,而是苹果为其“端侧AI”战略精心打造的关键一环。与FastVLM一同引发关注的,还有苹果最新开源的另一类兼顾低延迟与高准确度的图像-文本模型 MobileCLIP2。



图注:MobileCLIP2 性能表现

其同样专注于在移动设备上实现低延迟与高准确度的平衡,它通过“多模态强化训练”构建,目标是实现在移动设备上快速响应,但仍保持优良性能。

02

苹果的“AB”计划

在过去几年汹涌的AI浪潮中,如果非要选一个“AI进展异常缓慢”的科技巨头的话,作为全球市值最高的科技公司的苹果必然在一众用户和媒体人心中默默当选。

当其他几乎所有科技巨头都以前所未有的速度投身于大模型的军备竞赛时,苹果却在其最关键的硬件业务与AI的融合方向上,表现出一种外界看来近乎“摇摆不定”的姿态。

从最初坚持自研的神秘与沉默,到后来突然宣布与OpenAI合作、计划将ChatGPT集成到其生态系统中,苹果的每一步棋都精准地踩在了媒体、投资者和用户的“心窝”之上,表示“令人看不懂”,引发了无数的猜测与讨论。

这种外界的疑虑在今年达到了顶峰。面对Google、Microsoft、Meta等竞争对手在生成式AI领域的狂飙突进,苹果不可能在稳坐钓鱼台了。尤其是在VR/AR的战线上,苹果Vision Pro虽技术惊艳但市场表现平平,面对Meta Quest系列的先发优势几乎是惨淡收场。在至关重要的软硬件AI结合上,相比其他几家,苹果更是慢到不行。



图源:@Painfully Honest Tech

重压之下,苹果终于选择正面回应。

8月1日,苹果CEO蒂姆·库克罕见地召开了全员大会(allhands meeting),直接回应AI挑战,这次会议不仅是库克对过去一到两年间苹果AI进展缓慢的一次正面回应,更像是一场重振军心的“战斗宣传会”。库克在会上明确表示,苹果已经在这方面投入了“巨额资金”,并将会推出一系列“令人兴奋的”AI计划。

紧随其后,一则重磅消息流出,印证了库克的决心:苹果已经内部组建了一个名为AKI的团队,目标直指此前的合作伙伴也是业界标杆的ChatGPT。

而为此类云端通用大模型打前哨战的,则是苹果在过去1年里不断在小模型方向作出的努力。如果说,以云端大模型为代表的AI是苹果的“A计划”,追求的是无所不能的通用智能;那么苹果则在“偷偷地”坚定地推进自己的“B计划”—— 小模型计划。

在过去的1到2年内取得了大量实质性进展。然而,这些成果往往被外界有意无意地忽略了。究其原因,由于Scaling Law无数次被印证有效,AI圈子一直信奉“大力出奇迹“,所以对小模型的进展常常并不在意。

2024年7月,苹果就曾在 Hugging Face 上发布 DCLM-7B 开源模型,这款模型的发布,在专业圈层内引起了不小的震动。其性能已经逼近、超越了当时来自基础模型厂商的一众同级别同尺寸模型,像是Mistral-7B、Llama 3等等这说明,苹果在小模型的技术积累上,并说不上落后。

在WWDC 2024上,苹果宣布Apple Intelligence 并非一个单一的、庞大的云端模型,而是由多个功能强大、各司其职的AI小模型所组成的矩阵。这些模型经过高度优化,专门用于处理用户的日常任务,如整理邮件、润色文稿、智能相册搜索等。

03

当全世界向云端大模型狂奔,苹果选择回归设备

苹果想要保住基本盘,就得在端侧打AI反击战。

苹果的商业帝国建立在三大基石之上:极致的用户体验、无缝的软硬件生态,以及对用户隐私近乎信仰的承诺。这三大基石,共同决定了它的AI战略几乎必然走向端侧,走向小模型。

首先,隐私方面,苹果在于外界云端AI基础模型厂商的“互动”中,总是显得有些仓促应对,媒体关于接入外部AI能力的举措,一直质疑声不断。

比如,对于一个将“What happens on your iPhone, stays on your iPhone”(你的iPhone上发生的一切,只会留在你的iPhone上)作为核心营销语的公司而言,把AI能力寄托于外部AI基础模型厂商,被许多忠实用户和科技评论员看来,甚至是一次“品牌背叛”。甚至有媒体称”苹果会保护你的隐私,而OpenAI则做不到“。



以至于苹果后续不得不推出了AI时代的隐私保护“私有云计算”(Private Cloud Compute)等技术,也难以在短时间内完全打消市场的疑虑。

再把视线转向国区。外界一直在猜:苹果到底会牵手哪家本土 AI 基础模型厂商?BAT、字节,还是新晋的 DeepSeek?

最终,有消息称百度或成为合作对象。但很快,路透社的一则报道把争论推向高潮——苹果与百度在隐私问题上出现了严重分歧。

百度希望留存并分析来自 iPhone 用户的 AI 查询数据,而苹果的严格隐私政策则一概禁止此类数据收集与分析。两者在“用户数据使用”方面产生明确分歧。



可以说,在数字时代,隐私是苹果最锋利的武器。而将AI计算尽可能留在设备端,是捍卫这一承诺的关键技术路径之一,尤其是图像视频模态数据。

你想找一张“去年夏天在海边和狗玩的照片”。在端侧AI模型上,这个搜索过程完全在你手机本地的芯片上完成。你的私人照片、地理位置、甚至你和谁在一起的这些高度敏感信息,从未离开你的设备,也从未上传到苹果的服务器。这与需要将照片(或其特征)上传至云端进行分析的方案,在隐私保护上有着极大的区别。对苹果而言,选择端侧就能够运行的小模型,首先是一道“商业伦理题”,其次才是一道“技术选择题”。这是对其商业模式的根本性巩固。

除了隐私保护之外,用户体验也是苹果下大力气集中攻坚小模型的动力之一。一直以来,苹果产品的核心竞争力,在于“一旦用了,就难回到之前”的流畅体验。端侧AI是实现这种极致体验的保障。

云端AI总会受到网络状况的制约,一个简单的指令来回传输可能需要几百毫秒甚至更久,这种“卡顿感”会瞬间打破沉浸式体验。用户的设备可能在任何地方,比如信号不佳的地下室、万米高空的飞机上、或是异国他乡没有漫游信号的角落。一个依赖网络的AI功能,在这些场景下会立刻“失灵”,而端侧AI则能保证核心智能“永远在线”。自第一代iPhone诞生以来,苹果产品最深入人心的标签就是“可靠感”。用户需要一种永远在线的“可靠感”。

其次,从性能表现来看,在公众和部分业界的认知中,大语言模型(LLM)的参数量似乎与“智能”程度直接挂钩,形成了一种“越大越好”的普遍印象。然而,在实际应用,尤其是在需要高度专业知识和精准度的垂直细分场景中,这种看似无所不能的“通才”大模型,其表现却不一定比经过精细打磨的“专才”小模型更好。

最后,驱动苹果走向端侧AI的,还有一笔深藏在硬件迭代背后的、必须算清楚的“经济账”。近年来,一个让用户和评测机构都普遍感受到的现象是,iPhone的A系列和Mac的M系列芯片性能越来越强大,其每一代之间的性能突破,常常让用户觉得“性能过剩”了。一边是硬件算力近乎疯狂地增长,另一边却是大多数用户在日常应用(如社交、视频、游戏)中,无法体验到同等速率提升的感知。



如何有效吸收并转化这种看似溢出的边际性能,是苹果必须解决的核心问题。如果计算任务分配到用户自己的设备上,利用设备上本就强大的A系列/M系列芯片,对苹果来说,是最经济、也最可持续的商业模式。

如果把视线从苹果移开,会发现行业内对小模型的兴趣确实在普遍升温。但这并不意味着所有公司都在追逐同一个目标,更准确的理解是:不同公司基于其核心业务模式,对小模型有着截然不同的诉求。

像是被戏称为AI厂商“军火库”的英伟达对小型语言模型的重视持续升级,在其最新研究中认为:小模型是 Agent 的未来。而众多AI初创公司同样开始选择小模型,作为一种务实的某一小块垂直市场的切入策略,像是美国医疗版ChatGPT —— OpenEvidence 等等。在通用能力上,它们难以与大厂的旗舰模型相抗衡。因此,它们选择专注于特定行业,如医疗、金融、法律等,利用小模型易于在专业数据集上进行微调的优势。

结尾:

放眼整个行业,虽然对小模型的兴趣正在升温,但没有哪家公司像苹果一样,将其提升到生死存亡的战略高度。

过去几年,当ChatGPT横空出世,当微软将Copilot融入全家桶,当谷歌的Gemini迭代频繁,整个科技行业以前所未有的速度冲向下一个时代时,那个市值最高、手握最多现金的苹果,却像一个没跟上进度的差生,显得异常沉默和迟缓。

可以说,面对这场AI差生危机,苹果的自救之路清晰而务实:用“A计划”补齐短板,避免被时代淘汰;同时用“B计划”发挥长处,在自己最擅长的领域,即硬件端侧,打一场翻身仗。

相关内容

热门资讯

长三角城商行竞赛:宁波银行全面... 出品|达摩财经 2025半年报尽数披露完成,城商行迎来新的格局。其中,宁波银行(002142.SZ)...
2025小红书假期营销IP《十... 今天分享的是:2025小红书假期营销IP《十一放假计划》招商方案 报告共计:36页 《2025小红书...
阿联酋推出低成本AI推理模型 ... 财联社9月9日讯(编辑 赵昊)当地时间周二(9月9日),阿联酋穆罕默德·本·扎耶德人工智能大学(MB...
小麦子商城供应链选品大会圆满举... 小麦子商城供应链选品大会圆满举行16位商行老板共话聚势破局 东城鼎腾酒业,2025年9月9日电 ——...
开学季夸克官宣:覆盖超七成大学... 南都讯 记者吕虹 发自北京9日,阿里巴巴旗下AI应用夸克《开学AI第一课》系列活动在中国人民大学首站...
公募FOF八年规模近1700亿... 【深圳商报讯】(记者 詹钰叶)自2017年9月8日国内首批产品获批至今,我国公募FOF(基金中基金)...
超500亿元!深圳这个投融资大... 转自:深圳发布 金融是实体经济的血脉。为贯彻落实科技部等七部门印发的《加快构建科技金融体制 有力支撑...
鸣鸣很忙全国超2万店;京东超市... 今日多条要点,一起来看详情↓ ↓ ↓ 权威咨询机构沙利文:鸣鸣很忙全国门店数已破2万 「零售商业财经...
国家体育总局:加强对畸形“饭圈... 极目新闻记者 姚赟 9月9日下午3时,国新办举行国务院政策例行吹风会,介绍《关于释放体育消费潜力进一...
聚焦黄金|技术面、基本面与宏观... 来源:市场投研资讯 (来源:博时基金) 上周(9.1-9.5)黄金市场在忧虑美联储独立性的背景下跳升...
中东北非市场规模突破千亿美元!... 近年来,中东电商市场发展势头迅猛,据 Statista 数据显示,预计 2025 年,中东和北非地区...
国本更强,家底更厚,中国工业交... 文/刘育英工业化是现代化的基础和核心动力。9月9日,国务院新闻办公室举办“高质量完成‘十四五’规划”...
原创 没... 对于那些行业的唱空者,笔者向来不看好。虽然助贷业在政策叠加行业周期双重压力下,运营处于低迷期,但依赖...
马上消费筹备IPO:年入151... 瑞财经 王敏 9月5日,马上消费金融股份有限公司(以下简称“马上消费”)披露关于首次公开发行股票并上...
文心大模型X1.1深度思考模型... 9月9日,由深度学习技术及应用国家工程研究中心主办,百度飞桨、文心大模型联合承办的WAVE SUMM...
共寻可持续发展标杆!证券之星第... 为深入推进中国ESG体系建设,传递企业ESG价值内涵,证券之星于2025年5月16日正式启动“第三届...
金鸿顺:5%以上股东高德投资拟... 每经AI快讯,金鸿顺(SH 603922,收盘价:24.35元)9月8日晚间发布公告称,公司5%以上...
中期业绩罕见双降,泸州老窖如何... 泸州老窖中期营收净利罕见双降,折射出白酒行业步入深度调整与存量竞争新阶段 投资时间网、标点财经研究...
白酒中报“急刹车”,谁能“漂移... 文 | 向善财经 如果说2024年,是白酒行业的“寒冬”,那今年上半年,白酒行业就正式进入了更残酷...
原创 雷... “有大帝之姿”的王腾,因言获罪…… 作者 | 于婞 编辑丨高岩 来源 | 野马财经 被外界称为“小米...
【贵人服务】白云区精准发力破解... “这1000万元资金真是‘雪中送炭’!”日前,白云区医药产业园区内,熠品(贵阳)质量科技有限公司商务...
原创 A... A股今天有个典型特点,前期的热点有点逐步退潮的意思。比较典型的是之前的算力,无论是中际旭创还是新易盛...
淘宝控价难题怎么破?从方案制定... 在电商行业竞争愈发激烈的当下,淘宝平台上的价格混乱问题已成为众多品牌方亟待解决的关键挑战。低价倾销、...
今年前8月上海离境退税规模全国... 9月9日下午,上海市2025年度“诚信兴商宣传月”在上海新世界城启动。 澎湃新闻(www.thepa...
拦不住的“追觅速度” 拦不住的... 定焦One(dingjiaoone)原创作者 | 李云朵编辑 | 方展博成为世界一流品牌,需要多久?...
牛市盛宴,光伏如何分一杯羹? ... 前言光伏的未来在哪里?最近的股市其实已经体现得明明白白。因为欧洲储能爆单,我们看到拥有储能业务的阳光...
恒指盘中创近四年新高,谁在买 ... 特约记者丨庞华玮 编辑丨包芳鸣9月9日,恒生指数盘中最高报26027点,时隔近4年再次站上26000...
常州一家三口套现22亿,把20... 最近,资本市场传来一桩“大买卖”。旷达科技的实际控制人沈介良,正式将手中28%的股份转让给了湖南株洲...
现场视频流出!女星因炒股被抓,... 董事长向明星女友透露内幕消息。本想“割韭菜”,却因重组失败亏了500万。最终,两人还被抓了……最近,...
“A+H”上市公司增至161家... 9月7日,罗博特科、利欧股份相继公告,筹划发行H股股票并在香港联合交易所有限公司上市。今年以来,A股...