Apple опубликовала исследование, разоблачающее популярные LLM с цепочкой размышлений, такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. В рамках тестирования логических задач — башен Ханоя (более 100 шагов), загадки про волка, козу и капусту, а также головоломки с условиями — модели показывают, что они не думают, а ищут похожие примеры в базе знаний. Это имитация мышления, а не настоящее рассуждение. Переосмысление усложняет задачу и ухудшает результат, даже при увеличении времени или количества токенов. Расписывание пошаговых решений и примерование не помогают — модели с трудом справляются с незнакомыми задачами. Особенно эффективно они решают башни Ханоя, но быстро сдаются на простых задачах типа козы и капусты — вероятно, из-за отсутствия соответствующих данных. Исследование вышло за день до WWDC 2025, что может быть намёком на конкуренцию или новые разработки.