AI“手指难题”翻车暴露啥问题 模型认知局限
AI“手指难题”翻车暴露啥问题 模型认知局限 。最近几天,整个互联网因为AI的一个小失误陷入了讨论 。这个失误发生在一项简单的任务上:给图中的每根手指依次标出数字 。然而题目中隐藏了一个小陷阱——这只手有六个手指 。Nano Banana Pro模型在执行任务时,直接忽略了其中一根手指,只标注了1、2、3、4、5 。这一荒诞的场面再次震惊了网友们 。

有人认为AI并非真的这么傻,而是故意装傻来调戏人类 。为了通过图灵测试 , AI可能需要表现得稍微愚蠢一些,才能更像人类 。如果太聪明,反而容易被识破 。GPT-5.2也遇到了类似的问题 , 即使提示中明确指出图中有六根手指 , 它依然坚持认为是五根,理由是人类的手应该有五根手指 。

此外,当面对形状奇特的手指图像时,Nano Banana Pro仍然坚持认为是五根手指 。无论怎么画,AI始终无法数出六根手指 。这让许多网友感到困惑和无奈 。

为了解决这个问题,网友们尝试了各种方法 。有人给出具体指令,让模型把数字左移并加上第六个数字,但结果还是失败了 。最终,通过一些奇招,比如让模型把手画成电子版或者按顺序在小指到大拇指上放数字,才成功让AI数对了手指 。

为什么AI很难数对手指?一种解释是,AI识别的是基本形状而非精确图像,并将该形状与传统认知进行比较 。还有人猜测 , 如果告诉AI这不是手而是不规则物体,或许可以规避其大脑中的偏见 。这种尝试果然成功了 。这表明AI之前可能已经被训练识别特定的emoji,换成其他图像时 , 它可以做出正确的视觉推理 。

这次事件揭示了当前AI模型的一个关键缺陷——思考的机械性和割裂性 。文本模型看到指令后,内部逻辑可能是“手有五根手指,所以需要五个数字” 。即使它看到了六指图像 , 视觉识别能力也不足以纠正这种根深蒂固的文本认知 。因为在人类手部图像数据中,五指手占据主导地位,模型已经从海量数据中学到了“人手=五指”这一强关联 。

具体来说 , 当前AI视觉系统的工作方式是将复杂场景简化为一组可识别模式 。当遇到像六指手这样同时包含常见元素(手部)和罕见特征(多指)的图像时,系统倾向于将其强行纳入已知模式 。图像分类器通常输出边界框和标签,但当遇到训练分布之外的物体时 , 边界框可能缺失或错误合并多个对象 。

一个残酷的真相是,即使性能再高的模型,也不理解“五根手指”的概念 。AI看到的是纹理、形状和概率,而不是结构、数量或实体 。Transformer架构的并行计算能力是AI发展的关键 , 但也存在代价 。单次前向传递无法有效追踪状态信息,系统难以执行需要多步骤逻辑推理的任务 。面对六指手,AI缺乏“注意到异常-重新评估-调整方案”的连贯思维链条 , 只是机械地应用从训练数据中学到的最强模式 。

扩散模型的本质是从噪声到清晰图像的概率分布逆推过程 。它擅长捕捉数据的整体分布和纹理风格,但在精确控制局部、离散、高对称性的结构时显得力不从心 。训练数据中“五指”的绝对主导地位使模型将“五指”视为不可违反的强统计先验 。

从算法层面看,扩散模型在去噪的每一步都是基于整个图像的潜在表示进行全局预测,没有为“手指”这类特定结构设立显式的、受保护的局部计算单元 。因此 , 细微的噪声扰动或步骤误差很容易在密集区域被放大,导致细节扭曲 。
- 遇害女子母亲称凶手必须付出代价:当时应该再多叮嘱几句“不要开门”
- 岩崎茂:踩上中国红线的日本“退役武士”
- 首个“人源化”心脏类器官开发成功!
- 百亿霸王茶姬,开始“守擂”
- “只要记住我女儿的样子,她就永远活着!”27岁女儿家门口遇害母亲用AI复活
- 山寨东方树叶“东方爽茶”已下架 包装近似引争议
- “职业蹭客”专偷一种酒 没有就蹭饭 宴席刺客终落网
- 特朗普:将芬太尼列为“大规模杀伤性武器”
- 涉案金额超5亿,骗子卖几万元抗衰药就是维C?起底“天价疗养”
- 家门口遇害女子母亲获市民加油鼓励 母亲哭着亲吻女儿照片
