Apple разоблачает миф о мышлении LLM: тесты и выводы

Apple опубликовала исследование, разоблачающее популярные LLM с цепочкой размышлений, такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. В рамках тестирования логических задач — башен Ханоя (более 100 шагов), загадки про волка, козу и капусту, а также головоломки с условиями — модели показывают, что они не думают, а ищут похожие примеры в базе знаний. Это имитация мышления, а не настоящее рассуждение. Переосмысление усложняет задачу и ухудшает результат, даже при увеличении времени или количества токенов. Расписывание пошаговых решений и примерование не помогают — модели с трудом справляются с незнакомыми задачами. Особенно эффективно они решают башни Ханоя, но быстро сдаются на простых задачах типа козы и капусты — вероятно, из-за отсутствия соответствующих данных. Исследование вышло за день до WWDC 2025, что может быть намёком на конкуренцию или новые разработки.

Apple разоблачает миф о мышлении LLM: тесты и выводы

От redactor

Добавить комментарий Отменить ответ

Вы пропустили

Бизнес хендмейд дома

Бизнес хендмейд

Apple разоблачает миф о мышлении LLM: тесты и выводы

От redactor

Похожие записи

Иллюзия мышления LLM: анализ моделей и сложности задач

Иллюзия мышления LLM: анализ моделей и сложности задач

Ether0: Модель для химии с 24 млрд параметров

Добавить комментарий Отменить ответ

Вы пропустили

Бизнес хендмейд дома

Бизнес хендмейд