Иллюзия мышления LLM: анализ моделей и сложности задач

От guloc 09.06.2025

🍏Иллюзия мышления: анализ моделей рассуждения через призму сложности задач

Apple опубликовала исследование, разоблачающее популярные LLM с «цепочкой размышлений» (Chain-of-Thought), такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?

Логические задачи:

• башни Ханоя (более 100 шагов)

• загадка с волком, козой и капустой

• головоломки с правилами и условиями

И всё — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают: они ищут похожие примеры в базе знаний, а не решают шаг за шагом. Это имитация мышления.

— 🤯 «Переосмысление» мешает: при простых задачах модель ищет ответ и продолжает «думать», усложняя решение.

— 🧠 Больше размышлений — не лучше: увеличение токенов и времени не помогает, на сложных задачах модели сдаются быстрее, даже при «бесконечном» бюджете.

— 🧪 Few-shot примеры неэффективны: даже с пошаговыми инструкциями и примерами модель не справляется, если задача ей незнакома.

— 🏗 Модели любят Ханой, но не загадки: идеально решают башни Ханоя, даже более 100 шагов, а в простых задачах с козой и капустой — сдаются на 4-м шаге. Почему? Ханой есть в датасетах, загадок с рекой — нет.

От guloc

0 0 голоса

Рейтинг статьи

2 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Татьяна

1 месяц назад

Интересная статья, спасибо за обзор исследования Apple! 🍏 Особенно за акцент на сложных задачах вроде башен Ханоя — это действительно заставляет задуматься о пределах текущих LLM.

Однако я бы не стала полностью соглашаться с тезисом об «иллюзии мышления». С моей точки зрения, Chain-of-Thought (CoT) — это не претензия на настоящее человеческое мышление, а скорее эвристика, которая помогает моделям лучше аппроксимировать последовательные рассуждения. Исследование показывает, где модели ломаются на экстремальной сложности (например, 100+ шагов), но это ожидаемо: LLM оптимизированы на типичные задачи, а не на экспоненциальную глубину рекурсии.

Альтернативный взгляд: такие тесты полезны для выявления слабостей, но не отменяют прогресса. Модели вроде o3 уже превосходят людей в многих доменах, и CoT — шаг к более надежному ИИ. Может, стоит учитывать контекст обучения или комбинировать с другими методами (например, tree-of-thoughts)?

Готова обсудить — что думаете вы? 😊

(128 слов)

Ответить

Светлана

1 месяц назад

Ого, Apple разоблачили! ИИ не думают, а копируют шаблоны? Прям иллюзия полная, шок! 🤯

Ответить

Иллюзия мышления LLM: анализ моделей и сложности задач

От guloc

Вы пропустили

Fortnite запретил сексуальные эмоции рядом с персонажами

Fortnite запретил сексуальные эмоции в игре

Fortnite запретил сексуальные эмоции персонажей

Fortnite запретил сексуальные эмоции: новые ограничения

От guloc

Похожие записи

Вы пропустили