AI读不懂时钟，也算不出星期几？基础时间认知成挑战

时间：2025-05-17 23:10 作者：任飞扬

近期，一项关于人工智能（AI）能力边界的研究引起了广泛关注。据LiveScience报道，尽管AI在编程、图像生成、文本创作乃至部分标准化测试中表现出色，但在执行日常生活中看似简单的“读时钟”和“算日子”等任务时，却频频失误。

这项研究在2025年的“国际学习表征会议”（ICLR）上被详细介绍，相关论文已在arXiv平台上发布，尽管尚未完成同行评审。爱丁堡大学的研究员Rohit Saxena是论文的主要作者，他指出，人类对时间和日历概念的掌握几乎是本能的，而AI在这方面的欠缺应被视为一个需要重视的问题。

为了验证这一点，研究团队设计了一系列专门测试时钟识别和日历计算的图像，并将它们输入到多个具备图文处理能力的大型语言模型中，包括meta的Llama 3.2-Vision、Anthropic的Claude-3.5 Sonnet、谷歌的Gemini 2.0和OpenAI的GPT-4。然而，测试结果显示，这些模型在判断时钟时间和推算日期星期上的准确率均未超过50%。

Saxena进一步解释，AI在处理时钟问题时，不仅需要识别指针的位置，还要理解角度和分辨不同风格的表盘，如罗马数字或艺术化设计，这远比简单的物体识别复杂得多。而日历问题同样困扰着AI，特别是在处理如“每年第153天是星期几”这类问题时，错误率依然很高。

研究数据显示，AI在读时钟上的正确率仅为38.7%，而在判断日历上的准确率更是低至26.3%。Saxena强调，AI的推理过程并不基于固定的算法规则，而是依赖于从训练数据中学习到的模式，这导致它们的推理过程缺乏一致性和准确性。

研究还发现，当AI的训练样本中缺乏某些特定现象，如闰年或复杂的日历规则时，它们的表现会进一步下降。即使模型已经理解了“闰年”这一概念，它们也很难将这个知识正确地应用到具体的视觉判断中。

针对这些问题，研究提出了两个改进方向：一是增加训练数据中的代表性示例，以确保AI能够接触到更多样化的情境；二是重新审视AI如何整合逻辑推理与空间感知能力，特别是在处理不常遇到的任务时。这些发现不仅揭示了AI的当前局限，也为未来的研究和开发提供了重要的指导。

更多>同类内容