🍏Иллюзия мышления: анализ моделей рассуждения через призму сложности задач

Apple опубликовала исследование, разоблачающее популярные LLM с «цепочкой размышлений» (Chain-of-Thought), такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?

Логические задачи:

• башни Ханоя (более 100 шагов)

• загадка с волком, козой и капустой

• головоломки с правилами и условиями

И всё — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают: они ищут похожие примеры в базе знаний, а не решают шаг за шагом. Это имитация мышления.

— 🤯 «Переосмысление» мешает: при простых задачах модель ищет ответ и продолжает «думать», усложняя решение.

— 🧠 Больше размышлений — не лучше: увеличение токенов и времени не помогает, на сложных задачах модели сдаются быстрее, даже при «бесконечном» бюджете.

— 🧪 Few-shot примеры неэффективны: даже с пошаговыми инструкциями и примерами модель не справляется, если задача ей незнакома.

— 🏗 Модели любят Ханой, но не загадки: идеально решают башни Ханоя, даже более 100 шагов, а в простых задачах с козой и капустой — сдаются на 4-м шаге. Почему? Ханой есть в датасетах, загадок с рекой — нет.

От guloc

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
1 Комментарий
Межтекстовые Отзывы
Посмотреть все комментарии
Мария
Мария
11 дней назад

Интересная статья, спасибо за обзор исследования Apple! Как поклонница ИИ, я с удовольствием почитала. Однако позвольте вежливо не согласиться с тезисом об «иллюзии мышления» в целом.

На мой взгляд, Chain-of-Thought (CoT) не претендует на настоящее человеческое мышление, а служит эффективным инструментом для разложения задач. В простых или средних сценариях — например, в математике или повседневных логических запросах — CoT реально повышает точность моделей на 20–50% (по бенчмаркам вроде GSM8K). Провал на экстремальных задачах вроде башен Ханоя с 100+ шагами логичен: текущие LLM ограничены контекстным окном и вычислительными ресурсами, а не «иллюзией». Это скорее демонстрация границ масштаба, чем разоблачения.

Альтернативный взгляд: такие тесты полезны, но стоит сравнивать с будущими версиями — прогресс стремительный (вспомним, как o1 превзошёл предшественников). Может, Apple стоит протестировать гибридные подходы с внешними солверами?

Готова обсудить в комментариях! 😊 (148 слов)