Разработанные ведущими математиками новые уравнения оказались не под силу самым продвинутым большим языковым моделям (LLM). Это в очередной раз показало, что искусственный интеллект в его нынешнем виде далёк от совершенства, поскольку неправильно трактует задачи, что, в свою очередь, приводит к ложным результатам.
Исследовательский институт Epoch AI представил новый тестовый набор FrontierMath, требующий знаний на уровне доктора наук. Для разработки задач были привлечены ведущие математики, в том числе лауреаты Филдсовской премии. Решение этих задач может занять у специалистов от нескольких часов до нескольких дней.
В то время как в предыдущих тестах MMLU искусственный интеллект успешно решал 98% задач школьного и университетского уровня, новые задачи оказались значительно сложнее. Всего в тестах проверили шесть ведущих моделей ИИ.
Так, Gemini 1.5 Pro от Google и Claude 3.5 Sonnet от Anthropic смогли решить лишь 2% задач. GPT-o1-preview, GPT-o1-mini и GPT-4o от OpenAI справились лишь с 1% задач, а Grok-2 Beta от xAI не решил ни одной. Всё дело в том, что разработчики создали уникальные задачи, не встречающиеся в учебных материалах ИИ.
Исследователи также подчеркнули, что даже если модель давала правильный ответ, это не всегда означало правильность рассуждений. В отдельных случаях ответ можно было получить с помощью простых симуляций, без глубокого математического анализа.