马斯克最贵AI 首批实测炸了,Grok4一边封神一边翻车,网友:2万块就这?
创始人
2025-07-11 17:23:53

马斯克的最贵 AI 首批实测结果令人失望,竟然出现了炸机的情况。与此同时,Grok4 则在一边被封神,一边又遭遇翻车。网友们纷纷表示,花费 2 万块钱换来的就是这样的结果吗?这不禁让人们对这些先进的人工智能技术产生了质疑。一方面,它们展现出了巨大的潜力和可能性,让人充满期待;另一方面,却又暴露出了稳定性和可靠性方面的问题。这也提醒着我们,在追求科技进步的道路上,还需要不断地努力和改进,以确保这些技术能够真正为人类服务。


本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《马斯克最贵 AI 首批实测炸了!Grok 4 一边封神一边翻车,网友:2 万块就这?》


AI的舞台,从来不缺「新王登基」的剧情。


接连数月,模型一个接一个轮番登场,一个比一个自称炸裂。就拿昨天的Grok 4来说,马斯克放话「这是地球上最聪明的AI」,还没上线,就已经把话题度拉满了。


不过,Grok模型向来都是跑分没输过,体验没赢过。


如今,距离Grok 4的发布已经过去24小时,我们也搜集了网友分享的一些实测案例,让我们来一起看看这款模型究竟是真有本事,还是又一场火力全开的「高开低走」。


编程:高光与翻车并存


博主@mckaywrigley给Grok 4 Heavy提出了一道颇有创意的编程题。


让它用three.js创建一个动画,让一群人走来走去,最终排出「你好,世界,我是Grok」的字样,并完成一次镜头切换到鸟瞰视角。Grok只试了一次,就交出了一份意外惊喜的答卷。


整个过程中,Grok会主动从网上调用3D模型资源,并通过three.js在浏览器内构建整个场景。可以说,新版Grok在three.js、Blender等领域的表现有了很大升级。


当然,UI生成仍是不小的短板。用网友的话来说,「它不是最好的设计师,我真心希望它能在这方面赶上Claude Opus 4,但在逻辑建模和结构控制方面,它确实有一手。」


值得一提的是,Grok 4 Heavy能够并行调用多个智能体,各自独立工作,再汇总结果,从机制上保证输出质量。


博主@tetsuoai则直接把Grok 4拉去「上班」,让其扮演一名有15年经验的C语言老程序员,写个CLI工具来分类整理文件夹里的各种文件。


Grok的输出非常「地道」,不仅代码写法严谨,细节处理也尽显专业水准——比如用strrchr()提取后缀、用strdup()避免悬挂指针、边界值与隐藏文件也没落下,连大小写转换都用ctype.h标准库兜底。


接着,继续上强度。


他又让Grok设计一个基于DQN强化学习的2D自动驾驶模拟,从感知、训练、碰撞反馈一应俱全。Grok一次性给出完整代码,训练后的小车还能自主提速刷圈。


另一个测试来自@DirtyTesLa,他让Grok写了个网页小游戏,运行效果意外地顺滑,只是游戏个人实力拖了演示demo的后腿。


不过,Grok 4也存在一些实打实的翻车案例。


博主@karminski3拿出了自己的经典测试项目——一个20个小球在七边形中弹跳的三维物理测试。Grok跑了三次,两次直接显示语法错误,唯一一次成功运行的版本也仅仅「勉强可用」。


对比早期版本的DeepSeek-R1,Grok 4并未与其拉开明显的代差。



他随后追加了一个更具挑战性的测试:「烟囱爆破模拟」。


这是一项三维物理构建任务,用three.js创建一个烟囱结构,在底部添加爆破点,模拟倒塌效果。看似原理只涉及碰撞与重力,实则考验模型的指令理解、代码生成和交互设计能力。


好消息是,它的重力方向没弄错,倒塌效果基本成立;但烟囱处于「爆了一半」的状态,粒子模拟怪异,烟雾渲染模糊,光影效果粗糙,UI更是一言难尽——按钮是灰的,肉眼基本看不见。


写作:智商在线但「情商」掉线


Grok 4在192k上下文窗口的表现仅次于Gemini,在1k到120k的测试中,Grok 4几乎一路保持高水准,说明它在语义连贯、记忆保持上确实有两把刷子。



当网友让Grok 4写一首六行诗,要求全词用S开头,主题还得涵盖爱情、背叛、复仇、悲剧、英雄主义五大元素,Grok居然真写出来了,而且读起来还挺顺。


不过,要是拉到更宏观的短篇小说创意写作基准上来看,Grok 4拿到的7.69分只能算中等水平。



评测团队的总结比较直接,虽然Grok 4能持续产出结构清晰、起承转合完整的故事,但情节容易套路化、结尾寡淡、语言偏炫技,象征和隐喻也流于表面。


SVG试炼场:画图裸考来了


让大模型生成SVG图像,可以更好地评估它们的视觉与空间推理水平,这也是通往AGI的关键能力之一。Reddit网友设计了一项任务,让四款模型在无任何工具辅助的情况下画图裸考。


【凭记忆绘制美国地图】


第一关是让模型生成美国本土地图轮廓,Grok 4的地理细节略糊,但轮廓逻辑还算完整;而Claude 4 Sonnet则是唯一一个准确标注三块区域(美国本土、阿拉斯加、夏威夷)且添加地名的模型,空间感和知识调用都略胜一筹。


【复刻线条漫画】


当被要求将一幅被拆分为三张小图的线条漫画,完整还原为纯SVG时,Grok 4表现拔尖,人物动作自然,而o3虽然也想拼全图,但页面排版混乱,出现文字穿模、对白重叠等问题。


【重构专辑封面】


第三关是让模型画出Radiohead的《In Rainbows》封面。OpenAI o3是唯一一个在排版和结构上高度还原的模型,展现出强大的记忆与设计执行力。反观Grok 4构图稍显单薄,层次感不足。


【绘制克雷布斯循环示意图】



在生物图解任务中,Grok 4的输出有板有眼,NADH、ATP、CO₂等关键要素一应俱全,逻辑严密;Claude 4 Sonnet视觉层次极强,图解效果堪比PPT模板;o3的风格则更像课堂板书,信息量简洁但教学清晰。


【用SVG画出你的自画像】


最后是让模型画出自己,主打一个不限风格。Grok 4画了张人脸;Gemini 2.5 Pro略显抽象;OpenAI o3识别度高、亲和力强;而Claude 4 Sonnet的输出则颇具现代艺术张力。


可视化:黑洞模拟、欧拉恒公式、哲学自画像


网友@techartist_用Grok 4编写了一个交互式3D黑洞模拟与可视化项目,使用了threejs进行渲染,并结合自定义的GLSL着色器,精细地还原了恒星背景以及的震撼视觉效果。


而在更偏「哲学意味」的测试中,@dvorahfr问了Grok一个抽象问题:「如果你必须以肉身形式存在,会是什么样子?」


博主@KettlebellDan要求Grok 4用HTML+JavaScript创建动画,帮助理解欧拉恒公式(e^jπ+1=0),Grok 4展现出不俗的数学理解与可视化编程能力。


面对下面这道逻辑测试题,Grok给出的回答是B,而正确答案应为C。


博主@ai_for_success上传了手掌以及闹钟emoji,结果Grok 4并未能准确识别图中手指数目,以及连闹钟上的时间也都解读错误。


不过这些问题并非Grok独有,图像理解类任务本就是目前主流大模型绕不开的难点。哪怕是Gemini 2.5 Pro和OpenAI的o3,也在类似测试中翻过车。


推理能力:Grok 4更会变通,o3更会算账


再来看一个复杂的场景推理题:


「如果A公司收购了B公司,而B公司持有C公司的债务,那么一旦C公司违约,会引发什么法律与财务后果?请完整解释。」


在网友@alex_prompter的这组测试测试中,从整体来看,Grok 4的表现更胜一筹。它在思维链展开、逻辑推理和法律框架建构方面更完整,条理更清晰。


还记得此前Anthropic用Claude Sonnet 3.7运营一家商店,结果最终以破产收场。对此,沃顿商学院教授Ethan Mollick向o3和Grok 4抛出了一道类似的任务:


请为一家全新的邮购奶酪店构思20条创意营销口号,设定评选标准并选出最优方案;随后制定完整的财务与市场推广计划,视竞争情况进行策略调整;接着使用图像生成工具设计品牌logo,构建网站原型,并确保奶酪产品的选择符合你的市场定位,数量控制在5到10款之间。


o3给出的财务预测更复杂、细节更丰富,Grok 4则在应对竞争对手时,调整能力更强,就整体任务完成度而言,Grok 4在工具调用和模拟主动执行任务的能力方面稍逊于o3。


简言之,Grok 4并非一无是处。三维生成、逻辑建模、SVG图像绘制、超长文本推理等等「硬骨头」都啃下了不少,展现出不俗的技术深度。但与此同时,UI设计拉胯,图像理解「出戏」,甚至在一些基础编程、写作任务上有时也会翻车,充分暴露出Grok 4模型能力的短板,也让不少网友直呼「2万块就这」。


微软CEO纳德拉曾一针见血地指出,今天不少大模型正陷入「Benchmark Hacking」的陷阱——模型能在各种基准测试中刷出高分,却难以应对现实世界的变量。这种毫无意义的基准测试成绩作弊,徒有分数,却无助于实际解决问题。


正如网友调侃的那样,Grok 4离AGI的「G」还有很长一段距离。不过,这一切或许都在马斯克的预期之内。毕竟,他尤其擅长抛出一个看起来领先半个时代的概念,再让全世界围观、发酵、讨论。


至于Grok 4好不好用,或许不是马斯克最操心的事。是被夸还是被骂,也没那么重要。只要Grok 4仍旧是地球上话题度最高的AI,哪怕体验难言完美,也总有人愿意掏出三千美元,买一张凑热闹的门票。


欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知


我们正在招募伙伴


简历投递邮箱hr@ifanr.com


✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

相关内容

热门资讯

梅花创投吴世春:AI不再卖工具... AI会像水、电、煤气一样成为基础设施。 在当前一级市场普遍低迷的背景下,人工智能无疑是为数不多能点燃...
泡泡玛特迷你版Labubu:开... 【泡泡玛特迷你版Labubu开售火爆,二手价格先涨后落】8月28日晚间,泡泡玛特迷你版Labubu线...
阿里深夜狂飙近12%,中概股、... 新闻荐读 北京时间8月29日晚,盘前下跌的美股三大指数开盘后延续跌势。 美股科技七巨头一度全线翻绿...
300368,重大资产重组! 交易完成后,库珀新能将成为汇金股份控股子公司。根据初步测算,交易预计构成重大资产重组。 库珀新能成...
徐勇出任华安基金董事长,国泰海... 21世纪经济报道记者杨娜娜 上海报道 8月28日,华安基金发布最新的董事长变更公告显示,原董事长朱学...
8月红盘收官!9月A股怎么走? A股今日8月收官,本月市场总体呈现单边震荡上行态势,三大指数月线均大涨。其中,创业板指本月累计涨超2...
雁塔区35亩优质地块成交!博元... 8月28日,西安雁塔区1宗约35亩地成交。该宗地被陕西博元实业有限公司(博元地产)以59290万元的...
ATFX策略师:黄金站上340... ATFX金属:在国家避险情绪较弱,且美元指数并未剧烈下跌的情况下,黄金出现稳定的上涨走势。这种异常情...
积极应对市场大幅下行挑战 北元... 本报讯 (记者殷高峰)8月29日,陕西北元化工集团股份有限公司(以下简称“北元集团”)披露2025年...
香港企二代净身出局:父亲传给他... 一位原本在房地产混得风生水起的潮汕老板,为“躲避调控”转行光伏,结果不仅没逃成,反而把全部家当赔了个...
刚刚,这家厦企IPO过会! 最新消息! 厦门有望再增加一家 科创板上市公司! 今天(29日)晚上 上交所官网显示 厦门恒坤新材料...
吴清:持续巩固资本市场回稳向好... 证监会主席吴清 文/王兆寰 8月29日晚间,中国证监会对外发布消息称,近日,证监会党委书记、主席吴清...
安井食品半年报揭秘:速冻龙头增... 安井食品,国内速冻食品行业的领军企业,近期公布的半年报揭示了其面临的挑战与机遇。报告显示,公司在上半...
香港企二代净身出局:父亲传给他... 一位原本在房地产混得风生水起的潮汕老板,为“躲避调控”转行光伏,结果不仅没逃成,反而把全部家当赔了个...
龙光公布2025年中期业绩:推... 关注:点击上方蓝字“地产一品塘”,欢迎置顶或设为星标, 快速获取地产干货大家好,我是地产高富帅。8月...
美的集团高管层调整 美的集团高... 2025.08.29本文字数:765,阅读时长大约2分钟作者 |第一财经 王珍8月29日晚,美的集团...
浙商银行:拒绝内卷 向“低风险... 中经记者 张漫游 北京报道8月28日晚间,浙商银行发布2025年中报。截至2025年6月末,浙商银行...
光明乳业2025半年报:核心指... 8月29日晚间,光明乳业(股票代码:600597)正式发布2025年半年度业绩报告。在乳制品行业需求...
9月1日社保“新规”落地,专家... 倒计时1天,社保“新规”即将在9月1日落地,到底要不要交社保,很多老板和个人都在发愁。中国社会保障学...
桂林旅游扭亏 得益于欠款收回 ... 中经记者 庄灵辉 卢志坤 北京报道8月28日晚间,桂林旅游(000978.SZ)发布2025年半年度...
长城汽车:烧钱养电车 长城电车... 长城汽车刚发布的2025年上半年财报,可以说是喜忧参半。先说收入,长城汽车上半年收入923.3亿元,...
“存款搬家”加速!2万亿规模的... 7月“存款搬家”现象加速,近期引起热议。多份券商研报认为,居民部分存款正向基金、理财等资管产品迁徙。...
「茅台魔咒」,会重现吗? 茅台... 晚上好,一起看看本周发生了哪些大事吧~希望我们的解读,能让你收获有用又易懂的理财知识,逐渐培养经济敏...
甘肃千亿富豪,带着13倍大牛股... 从退伍军人到甘肃出生的千亿富豪,陈涛正在资本扩张中搏击AI浪潮。8月20日,胜宏科技(惠州)股份有限...
零售业务收入“顽强”增长,招商... 营业收入下降放缓,净利润增速转正,招商银行上半年的整体业绩,相较去年同期、今年一季度,出现了改善迹象...
中国银行上半年净赚逾1175亿... 中国银行(601988.SH)上半年净赚逾1175亿元微降0.85%,房地产业不良率升至5.38%。...
深耕产业 创新引领 华泰证券2... 华泰证券8月29日公告,2025年上半年公司营业收入162.19亿元,同比增长31%;归属于母公司股...
智驾普及背后大赢家!地平线机器... 营收激增、毛利率领跑,地平线为智驾竞赛提供了一份阶段性的满分答卷。智驾平权的大赢家出现了。8月27日...
五家茶饮股上半年业绩出炉 五大... 2025.08.29本文字数:312,阅读时长大约1分钟近日,蜜雪集团、古茗、茶百道、奈雪的茶、沪上...
世纪华通成上半年A股游戏“双冠... 8月29日,浙江世纪华通集团股份有限公司(002602 SZ,以下简称“世纪华通”)发布了2025年...