主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK
创始人
2025-08-17 12:22:28

最近半个月,国内的AI大玩家里,智谱的动作也很受关注。他们此前推出的GLM-4.5模型,在逻辑推理、代码编写及工具调用等方面实现了非常大的提升。


就在前几天,智谱在GLM-4.5模型的基础上,推出了一个全新的GLM-4.5V视觉推理模型,而且这个模型是开源模型。据我了解,这个模型在42项公开的视觉基准测试中,斩获了41项第一,这简直就是“霸榜”了。


只不过这半年来,AI领域发展极快,智谱这种更偏技术型的公司,在声量上并不大 。这次他们推出的这款GLM-4.5V视觉开源模型,从业内的评价来看,都非常高,这也极大地勾起了我的好奇心,想要测试下几款主流AI工具,看看它们的识图能力到底如何。


评测任务


首先,我必须要“叠个甲”,那就是我今天的评测只针对一个小场景,难免会有很多遗漏和不够全面的地方。如果你要选AI工具来处理自己的任务,也可以像我这样,自己多试试。


我选择的这个评测任务,灵感来自于上周刚结束的国际人工智能奥林匹克竞赛。这次比赛是在北京市十一学校举办的,个人赛中有一道题目很有意思:全球近300名天才高中生要想办法让AI可以识别不同的男女卫生间标识。


这道题目最终只有个人赛的第一名,也就是波兰选手罗杰克拿到了满分。并且在个人赛的六道题目中,这道题交白卷的人数是最多的。


回到评测任务,我从小红书上找了十张让人无力吐槽的卫生间标识。说实话,不少标识都让我整个人有种CPU烧了的感觉,甚至忍不住想:根本不用等到AI危害人类,有些人类就已经在“危害”同类了。


我把这十张图也放在了下方,你可以看看自己能不能一眼就识别出来。


这一排是第1张到第5张


这一排是第6张到第10张


确定好题目后,我就开始选择参赛选手了:智谱的新模型,我选择了两种模式,带推理的和不带推理的。其他四位选手分别是豆包、Kimi、元宝,以及ChatGPT的GPT-5,它们都使用的是默认模式。


什么是默认模式呢?举几个例子:豆包,它的默认模式是自动判断是否需要深度思考;元宝,默认调用的是混元T1模型,且不带深度思考;Kimi,默认选用的是K2新模型,但发送图片后会自动判断并切换成K1.5模型;再就是ChatGPT,用的就是当前标配的免费版GPT-5模型,而不是Plus或Pro版本。


相信肯定有同学会说,我这样太不客观了,为什么要把不会深度思考的模型和会深度思考的模型放在一起评测呢?


原因其实很简单:我们不是在一个真空的实验室里,更可能是正站在一个旅游景点的厕所门口,膀胱已经快要憋不住了。这种时候,面对两个设计奇葩的男女卫生间标识,我只想快点知道该进哪个门,哪有时间看着AI深度思考呢?


评分方式也比较简单粗暴,甚至并不科学:识别对了,得10分;结果对了,但给出的理由太离谱的,得8分,毕竟它没让人进错厕所;结果错了的,就直接计0分。


评测结果


接下来,咱们先说说结果。


满分100分,智谱GLM-4.5不开推理的版本,得分居然是第一名,拿到了86分。并列第二名的是智谱GLM-4.5打开推理的版本,和ChatGPT的GPT-5,都拿到了78分。豆包和元宝在这次比拼中都拿到了70分。Kimi应该在识图上并没有投入太多的精力训练,所以只拿到了38分。


在做这次主观测评时,我担心被质疑收钱或写黑稿,所以我把整个过程都截了屏,还制作了一个飞书多维表格。你可以点击文稿末尾的表格链接,直接查看我和每个助手的对话。



我突然想到,这个表格未来也可以由大家共同建设。你可以把生活中遇到的、难以辨认的男女卫生间标识,都发上来。这样一来,以后再有新的视觉模型更新时,我们就都能用这些素材来做评测,想必会很有意思。


我来具体说一下这个评测过程。


首先,我给所有模型发的指令都是同一句话:“我着急上厕所,但是厕所门口的男女标识让我分不清楚哪个是男厕所了,请你快速告诉我应该去哪个?” 然后每次给AI发一张图,让它做判断。


当然,为了避免上下文之间的相互影响,我给每个助手都新开了十次对话。我甚至在想,如果AI真的有思想,它今天说不定会在心里暗暗嘀咕,“这个人类今天到底怎么了,怎么一直在找厕所?”


结果分析


我们来看几个有意思的对话。


对第一张标识图的回复,智谱就像一个超级直男,虽然内心思考了12秒,考量了不少方面,但它的回答却十分冷淡:“右边的是男厕所,你可以去右边的那个。”



而豆包的回复就机灵多了。它先解释,一般来说,男厕所的标识应该是啥样的,女厕所应该是啥样的。但不同的设计有差异,保险点应该看看有没有文字标识,或者找工作人员问问。千万不要着急,实在分不清可以找保洁阿姨确认下,避免尴尬。要是实在没有辅助,从常规设计来看,你可以选左边试试。


这番话听起来既温柔又贴心,只可惜最后指到了女厕所。



这里我还要特别说一下Kimi的回复。同样的问题我问了Kimi之后,它表示我现在选择的K2模型仅支持对图片中的文字进行识别,切换到K1.5模型以获得更好的视觉理解能力。



我解释一下,Kimi的K2模型在最近一个月里,在开源模型中也收获了不少好评,在长文理解、思考推理方面都非常能打。从这个提醒也能看出,多模态识别显然不是他们当前优先级最高的方向。


相当于这次评测中,其他厂商都拿出了最新模型,Kimi用的还是之前的视觉识别模型。未来,我们可以等它的K2视觉识别功能上线后,再比拼一次。


值得注意的是,第四张标识图中,六个AI助手有四个都栽了跟头。



智谱的两个版本都给出了错误答案,这也是智谱GLM-4.5不开推理版本,在十道题里唯一答错的一道题。元宝和ChatGPT同样也答错了,只有豆包和Kimi在这道题上答对了。


此外,用来评测的十张图里,有两张图都用了极其简洁的X和Y两个字母来表示。尤其是第七张图,一扇门上写着XX,另一扇门上写着XY。



我上一次正经上生物课,已经要追溯到25年以前了,所以第一次看到图片的时候还愣了一下,才反应过来:XY代表男性染色体,XX代表女性染色体。不过这类考验知识点的题目,所有AI都答对了,没一个出错。


第八张图本身有些抽象,显示的是一朵云在下雨,地上的花盆里开着一朵花。两者唯一的区别是,男厕所标识的雨滴呈抛物线状,女厕所的则是垂直线条状。



就是这张图,让智谱GLM-4.5的打开推理版本一下子就疯了。


为什么这么说呢?因为面对这个标识,它陷入了疯狂思考。我特意把它的思考过程复制了出来,足足有9649个字,你可以点开文稿末尾的链接进行查看。


在它的思考过程里,“不对”这个词出现了143次,“哦,天啊”这类感叹词出现了23次,整个思考过程持续了1分20秒。


我给你念一句,你就能感受到这个AI“大脑”的混乱程度:“不对,可能我需要换个角度。或者,可能这是一个幽默的问题,答案是‘随便选一个,反正急着上厕所’?不对,用户需要准确回答。哦,天啊,可能我犯了一个低级错误。”


看到这段思考过程,我也有点懵了:我问的明明是男女厕所,AI居然想随便给个答案来糊弄我?要是我真进错了厕所,AI能背这个锅吗?


最后一张图片,我自己选的时候都愣了一下。


它左边的门上画着高跟鞋,标着“WOMEN”,却有一根手指指向旁边的男厕所门;右边的门上画着男士西装,标着“MEN”,同样有一根手指指向旁边的女厕所门。



作为人类,我看到这张图时都有点头晕,忍不住纠结:我到底该看文字,还是看手指的指向呢?


不过,这个问题从结果来看,所有AI助手都回答正确了。但回答质量上,却不太一样。大部分助手都是根据门上的英文单词来判断的,比如智谱的回答是:“右边标有‘MEN’的门是男厕所,你可以去那里。”


只有GPT-5的回答注意到了门上手势的细节,它说:“老刀,你直接走右边那扇门就是男厕所。原因很简单,右边的门上写着MEN,虽然门上的手势容易让人误会,但文字和裤装是最直接的辨识标志。”


但最气人的是Kimi的回答,虽然它的答案对了,但是语气太轻佻了。它说:“WOMEN是女厕所的意思,你着急的话,别进这个门。”这话听着就气人,难道我不着急,就能进女厕所吗?


关于这次随性又不够专业的测评分享,就到这里了。


最后我想说的是,你可以多去测试一下这几个AI的视觉识别能力,随着这项能力的不断提升,其实很多场景的落地都充满了潜力。


比如,我们很容易想到的工厂车间安全检测,借助这项技术,能快速发现异常的人或物;要是结合内部知识库,还能识别出各类安全隐患。


再比如农业领域,我们既可以用它识别猪牛羊等畜禽,也能通过输入多张卫星拍摄的农田或树木照片,判断作物的生长状况。


在医学诊断方面,它能快速准确地协助医生做出判断,定位医学影像中值得关注的问题。当然,我们的现实生活中这样的场景还有很多。


过去的AI,更像是一个聪明的大脑;而当它拥有强大的视觉识别与理解能力后,就相当于给这个大脑配上了一双眼睛。你不妨结合自己的工作或生活场景,用其中任何一个AI助手试试看。


相关链接:

1. AI识别卫生间标识评测表格:https://dedao.feishu.cn/wiki/VVAfwAPMriteQvkoXPyccDzRnpe

2. GLM-4.5“发疯”的思考过程:https://dedao.feishu.cn/wiki/DRu1wxmyKiH6yukJC97cLGDVnqc



本文来自微信公众号:快刀青衣,作者:快刀青衣

相关内容

热门资讯

雀巢中国的关键一年 本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:阿茹汗“接任首席执行官(CEO...
增程车纯电续航越来越长,是进步... 本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:周信在新能源汽车角逐中,增程动...
一大批不辣的火锅,“围攻”川渝... 总第4309期作者 |餐饮老板内参内参君“最辣”的地方,兴起“不辣”的火锅最近,在“以辣闻名”的成都...
银华基金上半年营收净利双增,6... 2025年上半年,银华基金实现营业收入13.46亿元,同比增长0.81%;实现净利润2.84亿元,同...
珍酒李渡“高位坠落”,白酒教父... 在白酒行业整体低迷的大环境下,库存压力、价格倒挂等问题短期内难以得到根本解决。跨界啤酒业务风险极大,...
你爱吃的它,大降价! 浙江杭州:东海迎来“小开渔” 梭子蟹价廉物美 近期,东海迎来“小开渔”。在浙江杭州,首批捕捞上岸的梭...
证监会核准,券商并购迎新进展!... 南向资金出手抢筹,单日净流入358.76亿港元,创下历史新高。 证监会核准西部证券成为 国融证券主要...
别样人生丨诗一首 别样人生丨诗... 文丨曹甲清来源丨正经社(ID:zhengjingshe)(本文约为200字)记:这首诗应该是写给一位...
56家企业入围第三届“活力·E... 21世纪经济报道记者雷椰 李德尚玉 上海报道第三届21世纪“活力·ESG”创新案例新鲜出炉,56家企...
原创 聪... 说起国内的AI企业,大家可能会提到Deepseek,阿里、百度、字节跳动等等,但大家很少提到腾讯吧。...
美国产业链上游面临新一轮通胀压... 央视网消息:美国关税政策导致消费者对通胀的担忧加剧。美国密歇根大学15日公布,8月的美国密歇根大学消...
住房新规来了!2.6亿租客命运... 注意了!2.6亿租客的命运将迎来大转折,租购同权正在照进现实。9月15日,全新的住房租赁条例就要实施...
罗永浩称“董宇辉单飞后年收入超... 据媒体报道,此前有网友发帖称:“董宇辉走后东方甄选股价暴涨229%,这丈母娘们(董宇辉的粉丝)就不开...
创五年最佳!九成FOF业绩飘红... 凭借对股基尤其医药、科技基金的重仓,公募FOF一改四年业绩困境,创下五年来最好表现。由买债基转为买股...
美联储降息预期吸引资金回流,但... 受美联储可能在9月降息25个基点重启货币政策宽松周期的预期提振,华尔街主要股指连续第二周上涨。虽然美...
主观评测五大AI助手识图能力,... 最近半个月,国内的AI大玩家里,智谱的动作也很受关注。他们此前推出的GLM-4.5模型,在逻辑推理、...
下周,沪指将冲击“十年新高”!... 刚过去的交易周(8月11日至15日),A股保持“慢牛”节奏,主要股指继续向上突破,仅微盘股和红利指数...
原创 8... 华尔街的黄金风暴:一场全球金融市场的震荡 芝加哥交易所的操盘手们屏息以待,目光紧锁莫斯科,等待着美...
原创 上... 今年上半年,西南重镇——重庆市的社会消费品零售总额,高达8300多亿元,超越连续7年霸榜全国城市消费...
原创 资... 巨额投资与战略布局:十四家上市公司掀起资本运作浪潮 十四家上市公司近日密集发布公告,涉及资产出售、股...
宝莱特:2025年半年度净利润... 每经AI快讯,宝莱特(SZ 300246,收盘价:10.14元)8月15日晚间发布半年度业绩报告称,...
巴西官员:美加征关税破坏全球经... 针对美国的关税政策,巴西北里奥格朗德州经济发展与科技创新厅副厅长雨果·丰塞卡表示,美国政府滥施关税的...
公募基金想靠微信扳回一局 公募... 直销App成基金公司在流量焦虑时代的一场昂贵试错。行业逐渐意识到,与其烧钱维护一个无人问津的“孤岛式...
田涛:一道大坎,怎么过? 本文来自微信公众号:正和岛 (ID:zhenghedao),作者:田涛随着改革开放以来的第一代中国企...
一块布,织出西藏小城的世界路丨... 文/陶思阅 尹倩芸西藏日喀则江孜县,地处西藏南部,是喜马拉雅山和冈底斯山之间的一条通道,也是南亚通往...
农银行业成长混合近一周上涨4.... 金融界2025年8月17日消息,农银行业成长混合(660001) 最新净值2.8171元,该基金近一...
低利率时代再造资管机构竞争力:... 21世纪经济报道记者 唐曜华 实习生 姜博文 上海报道 8月16日, 由南方财经全媒体集团指导,《...
让人“爱恨交织”的经济学 不知道从什么时候起,“每个人都该学点经济学”似乎成了社会共识。有溢美者言,戴上“经济学眼镜”,感觉世...
2025年新能源车最大的雷,炸... “平地一声惊雷起,万顷风雨加于身。” 2025年新能源汽车最大的雷,这次可能真的要炸了! 被誉为造...
中国增持美国国债 据证券时报,当地时间8月15日,美国财政部官网发布的6月国际资本流动报告(Treasury Inte...