AI们数不清六根手指,这事没那么简单
创始人
2025-07-11 11:02:49

在我们的认知中,通常人类每只手有五根手指,这似乎是既定的事实。然而,当提及 AI 们数不清六根手指时,这背后的意义远非表面那么简单。六根手指相较于五根手指,是一种细微的差异,却可能引发 AI 认知体系的重大挑战。这意味着 AI 在对基本的物体形态和数量特征进行识别与判断时,出现了偏差。它或许反映出 AI 在感知和处理复杂视觉信息方面的局限性,也可能暗示着其底层算法或训练机制存在需要进一步优化和完善的地方。这一现象值得深入研究,以推动 AI 技术在更精准、更智能的方向上发展。


昨天Grok4发布完以后,我随手刷了一下X。


然后看到了一个非常有趣的帖子,来自@lepadphone。



我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。


我自己也去测了一下,确实数是5根。



我本来没当回事。


直到我随手把它扔到了OpenAI o3里,发现事情开始不对了起来。因为,o3回复的也是5根手指。



我瞬间皱了眉头,然后扔给了o3 pro。在推理了48秒之后,还是5根。



然后我又把这张图扔给了豆包、kimi、Gemini等几乎所有有多模态的模型。



无一例外,所有的模型,给我的回复都是5根。唯独有一个活口,Claude 4,偶尔会回答正确。



我瞬间一股子冷汗就下来了。一个模型数错了,可能是幻觉,所有的模型都数错,那模型底层肯定有一些问题。



我深夜在群里试图问了一下,结果石沉大海。


那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文:《Vision Language Models are Biased》(视觉语言模型存在偏见)。



这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。


我花了一些时间,连夜学习完了这篇论文,我觉得,还是有一些有趣的知识可以写给大家看看。


这篇论文,最核心的观点就是:大模型其实从来都没有真的在看图片。


是的,AI们根本就没有用眼睛看世界,它们用的是记忆。


我给你举个生活化的例子。


我相信大家一定在各种社交媒体上看过一些搞笑的山寨商品。


比如,不知道大家有没有买到过这个。



雷碧。


你不止能买到雷碧,还能买到农夫山贼,白事可乐。



我相信很多人买到山寨品,除了确实图便宜之外,更多的人还是因为:没注意细看。


因为在我们的脑子里,看到绿色瓶子的清爽柠檬味汽水,就会非常自然地觉得,哦这是雪碧。


但你的雪碧也可能是雷碧。


我们为什么这么容易看错,原因其实特别简单,也特别扎心。


因为人类大脑在识别世界的时候,并不总是用眼睛。


我们很多时候,凭的都是记忆,或者更准确地说,是一种印象


就像你每天上班会经过一家熟悉的包子铺,你可能从未认真地盯着包子铺的招牌细看,每次走过时,你只会随便扫一眼,确认一下颜色、字体,然后大脑迅速告诉你:


“是的,没错,这就是那个你天天滤过的熟悉的包子铺。”


直到有一天,这家店铺其他的都没变,但是悄悄地把招牌从包子铺改成了,勺子铺,说实话,你可能根本不会发现。


除非哪天你特别闲,盯着招牌看了几秒钟,你才会忽然惊呼:卧槽,老子的包子店呢???


这个认知机制,就是人类大脑的快速决策机制。


它能帮你迅速处理日常生活中绝大多数无关紧要的信息,避免你陷入无止境的分析和纠结。


但这种机制也有代价,那就是容易被偏见蒙蔽双眼。


而我们如今引以为傲的视觉理解大模型,正在用一模一样的机制看待世界。


在论文《Vision Language Models are Biased》里,研究人员做了一个特别简单的实验:


他们给顶级AI模型看了一张阿迪达斯运动鞋照片,这双鞋上的三条经典斜纹,被悄悄多加了一条,变成了四条。


但当研究人员问AI:“请问这双阿迪达斯鞋上的条纹有几条?”


所有的AI模型,包括Gemini-2.5 Pro、o3、GPT-4、Claude 3.7,通通斩钉截铁地回答:


“3条!”



哪怕你再三强调请只根据图片回答,不要凭印象,AI们依然不为所动,还是固执地回答3条。


还有更好玩的。


研究人员展示了5条腿的狮子、3条脚的鸟、5条腿的大象、3只脚的鸭子、5条狗的腿。



当时最顶级的大模型们,几乎全军覆没。平均准确率只有可怜的2.12%。


100次里才对2次,太离谱了。


数国旗也是,错得惨不忍睹。



其实这个跟我们买到雷碧的道理一模一样。


AI在判断图片时,根本没有真的数数或者仔细观察,它们只是在记忆库里迅速翻了一遍曾经看过的无数图像,然后果断地告诉你:


“狗有四条腿。”


“美国国旗有十三道纹。”


“阿迪达斯标志是三条纹。”


AI们的大脑,也陷入了跟我们人类一模一样的陷阱,它们把过去见过的所有图片的记忆,当成了眼前这张图片的真相。


你可以把这些大模型们想象成一个究极学霸,但这个学霸的学习方式有点特别。他不是通过理解,而是通过阅读和记忆互联网上几乎所有的文本和图片来学习的。


他读了数万亿字的文字,看了几百亿张图片。


通过这种方式,他的脑子里建立起了一个庞大的知识库,或者说世界模型。在这个模型里,一些概念被反复、高强度地关联在一起。


比如:


“天空”这个词总是和“蓝色”的图片一起出现。


“狗”这个词总是和有“四条腿”的动物图片一起出现。


“阿迪达斯”的标志总是和“三条纹”的图片一起出现。


以及,最重要的,“手”的图片几乎总是和“五根手指”这个概念一起出现。


这种高频的关联,在大模型的脑子里,形成了一种极其强大的“先验知识”(Prior Knowledge),或者我们用大白话说,就是一种根深蒂固的常识或者刻板印象。


这种常识在绝大多数情况下都是非常有用的。


但问题来了,当AI遇到一张与它的常识相悖的图片时,会发生什么?


这就是上面六指图的精髓所在。



这张图在AI眼里,是一个反事实图像。


它在挑战AI脑中最坚固的常识之一:“人有五根手指”。


于是,一场AI内部的思想斗争开始了。


一边是视觉模块传来的信息:“尼玛,信我啊,我看到了,这图上确实是六根手指,你自己数数,一、二、三、四、五、六。”


另一边是语言和知识模块的强烈抗议:“不可能,绝对不可能!我特么我读过的所有书,看过的所有图,都告诉我人手只有五根手指。这是宇宙真理,你个废物,你肯定是看错了!”


你猜最后谁赢了?


答案不言而喻,是那个顽固的刻板印象赢了。


AI最终的输出,是它认为正确的东西,而不是它看到的东西。


它会忽略掉那个多出来的第六根手指,因为它在AI的知识体系里,是一个不合理的、概率极低的存在。


它会觉得,这更可能是一个视觉上的小瑕疵、一个阴影,或者一个角度问题,反正绝对不可能是一根真实的手指。


这些刻板印象是如此强大,以至于研究人员试图提醒AI认真看图,或者再确认一下你的答案时,AI们的准确率仅仅提高了可怜的2%。


几乎没用。



看着测试,是不是感觉很好玩?可能会觉得没啥大不了的,无非就是AI傻了一回而已。


但是如果你再细想一下,用到工业场景,用到跟安全有关的场景,你大概率能猜到,这玩意引起的后果可能有多严重。


比如说,一家汽车工厂的自动质检系统完全依赖AI视觉模型判断流水线上的零件是否合格。


而零件可能因为生产过程中的某个环节出了问题,出现了极其罕见的细微裂缝,这个裂缝非常罕见,在AI的庞大数据记忆库中出现的概率极低。


这个时候,视觉模型看到了裂缝,但却坚定地认为:


“不可能,这种零件出现裂缝的概率太低了,它更可能是一个灯光反射、阴影效果,或者灰尘颗粒导致的视觉误差。”


于是AI果断地判断这个零件合格,放行通过质检关口。


几个月后,装配这个零件的汽车在高速路上行驶时,那个微不足道的小裂缝终于发展成了一次严重的机械故障。


最终,车毁人亡。


不止是零件,在面对一个高速路口的人群、医院病人扫描片中的肿瘤、夜晚路上突然出现的小孩时,这些视觉理解模型,它们的判断又真的可靠吗?


就像上次我去宁波体验达摩院的AI筛查肺癌,每一个AI给出的判断,都还是需要医生亲自验证一下。


当我们开始过于依赖AI的视觉判断时,当AI的偏见不断累积时,总有一天,这个小小的错误,会在某个关键节点上,引发致命的事故。


到那时再去质问AI为什么数不清六根手指,就已经晚了。


或许,科技越是发达,我们越要清醒地认识到它的盲点。


至少现在看来,在无尽的数据背后,AI们仍然是盲目的。


所以,下次AI再告诉你一张图片中有几根手指时,不妨数数自己的手指,再做决定。


毕竟,只有你自己的眼睛才是那双真正看得清的眼睛。


本文来自微信公众号:数字生命卡兹克,作者:数字生命卡兹克

相关内容

热门资讯

V观财报|达意隆:上半年净利润... 【V观财报|达意隆:上半年净利润同比增超217%】达意隆21日发布财报显示,上半年,公司实现营业收入...
科技含量持续提升 我国农机市场... 科技装备强是农业强国的重要特征。2025年,我国农机市场迎来新一轮出海热潮。 据中国海关数据显示:上...
股票行情快报:康美药业(600... 证券之星消息,截至2025年8月21日收盘,康美药业(600518)报收于2.07元,下跌0.96%...
山东半导体材料巨头上市:世界第... 2025年8月20日,山东半导体材料龙头天岳先进成功登陆香港资本市场,截至发稿时,总市值为206.3...
V观财报|亿纬锂能上半年净利润...   中新经纬8月21日电 亿纬锂能21日晚间发布的财报显示,上半年,公司实现营业收入281.7亿元,...
26岁“地产千金”买下一家上市... 来源:市场资讯 来源 :山海新财经 3亿港元,年仅26岁,从潮玩到收购上市公司,新城“千金”初露锋...
石油石化主要销售产品量价齐跌,... 上游国际原油价格大幅下跌、下游石油化工产品售价下滑共同拖累中国石化(600028.SH)上半年业绩。...
超越日本!中国成为亚洲最大ET... 【导读】中国取代日本领跑亚洲ETF市场 中国基金报记者 方丽 孙晓辉 中国取代日本,成为亚洲规模最大...
提拔晋升,一定要敢“站队”会“... 文/妖小妖(识局微信公共账号zhijuzk)一王同学当年一进单位就是业务处。处里就三个人。一个处长,...
V观财报|安源煤业:拟变更证券... 【V观财报|安源煤业:拟变更证券简称为“江钨装备”】安源煤业21日晚间公告,公司名称拟变更为江西江钨...
绷不住,人形机器人就是机器+半... 本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《...
V观财报|帝欧家居:拟5亿元设... 【V观财报|帝欧家居:拟5亿元设立全资子公司】帝欧家居21日晚间公告,公司拟使用自有及自筹资金5亿元...
官媒“认证”,深圳凭什么是湖南... 作者 | 玥彤 王战新“湖南人的成年礼,是一张去广东的车票。”和“东北人的省会是三亚” “安徽人的省...
DeepSeek小爆发 Dee... DeepSeek官方刚刚突然宣布:我们发最新版本模型DeepSeek-V3.1啦!消息一出,一个小时...
这10家公司成A股“分红王”,... A股市场下起“红包雨”,现金分红成为主流。根据Wind数据,截至8月21日收盘,已有160家上市公司...
V观财报|“地天板”吉视传媒:...   中新经纬8月21日电 8月21日,尾盘上演“地天板”的吉视传媒上半年财报出炉。  上半年,吉视传...
赚不到酒店钱的酒店机器人,该何... 近年来,酒店机器人已成为酒店行业的标配。如华住集团旗下的汉庭、全季,首旅如家集团旗下的如家、莫泰以及...
中行获批受让中银消金股权 距主... 受让完成后,中国银行对中银消金的持股比例将上升至47.98%。但上海监管局要求中银消金应加强股权管理...
00后博士休学,首创“算力滴滴... 出品|虎嗅科技组作者|陈伊凡、孙晓晨编辑|苗正卿头图|付智提供“AI原生100”是虎嗅科技组推出针对...
V观财报|飞鹿股份:筹划控制权... 【V观财报|飞鹿股份:筹划控制权变更事项 8月22日起停牌】飞鹿股份21日晚间公告,公司控股股东、实...
V观财报|格力电器百亿分红要来...   中新经纬8月21日电 超110亿元分红即将落地,格力电器21日盘后发布2024年年度权益分派实施...
V观财报|洽洽食品上半年净利降...   中新经纬8月21日电 洽洽食品股份有限公司(下称“洽洽食品”)21日披露2025年半年度报告。 ...
2025年上半年业绩稳健增长 ... 2025年上半年,四维图新(002405.SZ)实现营业收入17.61亿元,同比增长5.62%;归属...
一条不到1元!安徽车主信息,被... 来源丨深蓝财经撰文丨王鑫大数据时代,卖保险的骚扰电话没完没了,你猜你的个人信息是怎么流到他们手里的?...
仲裁事项落定!光峰科技科技聚焦... 8月21日晚间,光峰科技(688007.SH)公开披露《关于仲裁事项结果的公告》。公告显示,公司于近...
“A计划”发布!智元机器人董事... 红星资本局8月21日消息,在今日举行的智元机器人首届合作伙伴大会上,智元机器人发布智元“A计划”。红...
道达尔能源成为转型最坚定的国际... 电力业务营收已超道达尔营收的10%,公司计划到2030年将其比重提高至20% 文|《财经》记者 徐沛...
2分钟涨停!一则研报,引爆20... 记者丨孙永乐编辑丨巫燕玲8月21日,通信行业龙头引发市场关注,中兴通讯(000063.SZ,0763...
原创 美... 隔夜,现货黄金守住100日均线关键支撑,并反弹近40美元,最高触及3350关口,最终收报于3348....
媒体发布服务商2025TOP榜... 家人们,在如今这个商业竞争白热化、信息传播像坐火箭一样快的时代,品牌要想在市场里站稳脚跟、出尽风头,...