🍏Иллюзия мышления: анализ моделей рассуждения через призму сложности задач
Apple опубликовала исследование, разоблачающее популярные LLM с «цепочкой размышлений» (Chain-of-Thought), такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
📌 Что тестировали?
Логические задачи:
• башни Ханоя (более 100 шагов)
• загадка с волком, козой и капустой
• головоломки с правилами и условиями
И всё — с усложнением.
💥 Результаты:
— 🔁 Модели не думают, а вспоминают: они ищут похожие примеры в базе знаний, а не решают шаг за шагом. Это имитация мышления.
— 🤯 «Переосмысление» мешает: при простых задачах модель ищет ответ и продолжает «думать», усложняя решение.
— 🧠 Больше размышлений — не лучше: увеличение токенов и времени не помогает, на сложных задачах модели сдаются быстрее, даже при «бесконечном» бюджете.
— 🧪 Few-shot примеры неэффективны: даже с пошаговыми инструкциями и примерами модель не справляется, если задача ей незнакома.
— 🏗 Модели любят Ханой, но не загадки: идеально решают башни Ханоя, даже более 100 шагов, а в простых задачах с козой и капустой — сдаются на 4-м шаге. Почему? Ханой есть в датасетах, загадок с рекой — нет.
🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025. Может, намекает на конкурентов или собственные разработки?
Вау, Apple разоблачили! Эти «умные» ИИ не думают, а просто шаблоны вспоминают? Прям иллюзия на лицо, шок! 🤯
А я вот недавно с Gemini Pro пыталась башни Ханоя решать, ну, для забавы, шагов 20-30 накинула. Сначала он так красиво рассуждает: «сначала диск А на В, потом С на А» — цепочка мыслей на полстраницы, аж мурашки, подумала, вау, машина думает! Я даже скриншоты сделала, друзьям показала.
А потом усложнила до 50 шагов — и бац, полный бред. Начинает повторять один и тот же шаблон из простых примеров, путает диски, в итоге предлагает невозможный ход. Разочарование такое лёгкое накатило, типа «ну ладно, ты не бог, а просто эхо моих знаний». Статья эта от Apple прям в точку бьёт — они не думают, а копаются в воспоминаниях. Теперь с ними аккуратнее, проверяю на деле. 😏