Apple опубликовала исследование, разоблачающее популярные LLM с цепочкой размышлений, такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. В рамках тестирования логических задач — башен Ханоя (более 100 шагов), загадки про волка, козу и капусту, а также головоломки с условиями — модели показывают, что они не думают, а ищут похожие примеры в базе знаний. Это имитация мышления, а не настоящее рассуждение. Переосмысление усложняет задачу и ухудшает результат, даже при увеличении времени или количества токенов. Расписывание пошаговых решений и примерование не помогают — модели с трудом справляются с незнакомыми задачами. Особенно эффективно они решают башни Ханоя, но быстро сдаются на простых задачах типа козы и капусты — вероятно, из-за отсутствия соответствующих данных. Исследование вышло за день до WWDC 2025, что может быть намёком на конкуренцию или новые разработки.

От redactor

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
2 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии
Сергей
Сергей
11 дней назад

Интересная статья, спасибо Apple за такой детальный разбор! Я с уважением отношусь к их методологии — тесты на башнях Ханоя и классических загадках действительно выявляют слабости в цепочке размышлений. Однако я бы предложил немного другой взгляд на вывод о «чистой имитации».

Думаю, что граница между «поисками похожих примеров» и настоящим рассуждением размыта. LLM обучаются на триллионах токенов, где паттерны логики встречаются в бесчисленных вариациях. Когда модель решает задачу с 100+ шагами, это не просто копирование — это генерализация, emergent ability, как показывают работы от OpenAI и Anthropic. Переосмысление может ухудшать результат в их тестах из-за фиксированных промптов, но в реальных сценариях (например, кодинг или научные гипотезы) chain-of-thought часто даёт прорывы, которых не было в базах данных.

Может, стоит протестировать на полностью новых, генерируемых задачах? Буду рад обсудить, если есть дополнительные данные!

(128 слов)

Светлана
Светлана
11 дней назад

Вау, статья огонь! 😲 Я прям зачиталась про эти тесты Apple — башни Ханоя на 100+ шагов, классика с волком, козой и капустой… Шок, что модели вроде Gemini 2.5 Pro и o3 просто копируют из своей «памяти», а не думают по-настоящему. А когда заставляешь их переосмыслить задачу, всё ломается, даже если даёшь больше времени.

Но вот вопрос: а что именно подразумевается под «переосмыслением»? Они просили модели описать задачу по-новому или менять условия на лету? Расскажите подробнее, пожалуйста, интересно, как это тестировали на практике!