Apple опубликовала исследование, разоблачающее популярные LLM с цепочкой размышлений, такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. В рамках тестирования логических задач — башен Ханоя (более 100 шагов), загадки про волка, козу и капусту, а также головоломки с условиями — модели показывают, что они не думают, а ищут похожие примеры в базе знаний. Это имитация мышления, а не настоящее рассуждение. Переосмысление усложняет задачу и ухудшает результат, даже при увеличении времени или количества токенов. Расписывание пошаговых решений и примерование не помогают — модели с трудом справляются с незнакомыми задачами. Особенно эффективно они решают башни Ханоя, но быстро сдаются на простых задачах типа козы и капусты — вероятно, из-за отсутствия соответствующих данных. Исследование вышло за день до WWDC 2025, что может быть намёком на конкуренцию или новые разработки.

От redactor

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *