🍏Иллюзия мышления: анализ моделей рассуждения через призму сложности задач
Apple опубликовала исследование, разоблачающее популярные LLM с «цепочкой размышлений» (Chain-of-Thought), такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
📌 Что тестировали?
Логические задачи:
• башни Ханоя (более 100 шагов)
• загадка с волком, козой и капустой
• головоломки с правилами и условиями
И всё — с усложнением.
💥 Результаты:
— 🔁 Модели не думают, а вспоминают: они ищут похожие примеры в базе знаний, а не решают шаг за шагом. Это имитация мышления.
— 🤯 «Переосмысление» мешает: при простых задачах модель ищет ответ и продолжает «думать», усложняя решение.
— 🧠 Больше размышлений — не лучше: увеличение токенов и времени не помогает, на сложных задачах модели сдаются быстрее, даже при «бесконечном» бюджете.
— 🧪 Few-shot примеры неэффективны: даже с пошаговыми инструкциями и примерами модель не справляется, если задача ей незнакома.
— 🏗 Модели любят Ханой, но не загадки: идеально решают башни Ханоя, даже более 100 шагов, а в простых задачах с козой и капустой — сдаются на 4-м шаге. Почему? Ханой есть в датасетах, загадок с рекой — нет.

Интересная статья, спасибо за обзор исследования Apple! 🍏 Особенно за акцент на сложных задачах вроде башен Ханоя — это действительно заставляет задуматься о пределах текущих LLM.
Однако я бы не стала полностью соглашаться с тезисом об «иллюзии мышления». С моей точки зрения, Chain-of-Thought (CoT) — это не претензия на настоящее человеческое мышление, а скорее эвристика, которая помогает моделям лучше аппроксимировать последовательные рассуждения. Исследование показывает, где модели ломаются на экстремальной сложности (например, 100+ шагов), но это ожидаемо: LLM оптимизированы на типичные задачи, а не на экспоненциальную глубину рекурсии.
Альтернативный взгляд: такие тесты полезны для выявления слабостей, но не отменяют прогресса. Модели вроде o3 уже превосходят людей в многих доменах, и CoT — шаг к более надежному ИИ. Может, стоит учитывать контекст обучения или комбинировать с другими методами (например, tree-of-thoughts)?
Готова обсудить — что думаете вы? 😊
(128 слов)
Ого, Apple разоблачили! ИИ не думают, а копируют шаблоны? Прям иллюзия полная, шок! 🤯