科技从业者路易斯,今日分享了大语言模型(LLM)在判断 “大偶数是否为质数” 时的有趣差异。此条在社交媒体上的小实验被埃隆·马斯克光速转载,似乎是实验结果显示Grok比GPT略胜一筹。
实验内容为:当被问及“748218957198847892 是否为质数”这类问题时,ChatGPT选择调用NumPy工具包开展数值测试以验证结果。
而X平台(原Twitter)旗下的Grok,则直接利用“除2以外,所有偶数都不是质数”的数学常识,瞬间判定该数并非质数。
这一对比凸显出不同LLM在逻辑推理与工具使用上的设计侧重:ChatGPT更倾向于借助外部工具开展“数值化验证”,以确保结论的计算严谨性;Grok则展现出对基础数学逻辑的 “直觉式调用”,能快速锚定问题核心特征并得出结论。
这种差异也引发业内讨论:大模型的“常识储备深度”与“工具协作能力”该如何平衡——前者考验模型对知识的内化效率,后者则关乎其与外部系统的协同智能。(转载自AI普瑞斯)