Насколько искусственный интеллект умеет решать простые учительские задачи по математике?

Насколько искусственный интеллект умеет решать простые учительские задачи по математике?

Исследования ученых Apple обнаружили серьезные проблемы в логике генеративного ИИ, особенно в области математики. Итоги исследований показывают, что ИИ, несмотря на свою репутацию “умного” помощника, не демонстрирует впечатляющих результатов даже при решении элементарных школьных задач по математике.

В недавно опубликованной статье под названием “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” шесть исследователей из Apple изучили неточности и хрупкость математического мышления в крупных языковых моделях (LLM). Основой для тестирования послужил набор задач GSM8K, который включает в себя 8 тысяч школьных задач на разных языках. Это является стандартом для проверки LLM. Исследователи изменили формулировки задач, не затрагивая их логику, и создали тест под названием GSM-Symbolic.

В результате испытаний производительность ИИ снизилась на 0.3% до 9.2%. Другой тест, в котором некоторые задачи содержали заявление, не связанное с ответом, показал “катастрофическое снижение производительности” с 17.5% до 65.7%. Для многих это не стало удивлением. Лично я часто замечал, как ИИ сталкивается с простыми задачами, связанными с числами. Вместо решения математических задач ИИ использует простое “сопоставление шаблонов” для преобразования выражений в операции, не понимая их сути.

Проблемы возникают, когда слова в задачах сбивают ИИ с толку или не следуют известным ему шаблонам. Таким образом, ИИ создает иллюзию “мышления”, полагаясь на обработку собранных данных.

На фоне повсеместного обсуждения ИИ логично задаться вопросом, что это значит для его будущего. Некоторые из нас, включая меня, ожидали от ИИ чудес. Однако очевидно, что его возможности пока ограничены, и не факт, что эти ограничения удастся преодолеть. Хотя я не специалист по ИИ, будет интересно следить за его развитием и увидеть, где же на самом деле он достигнет своих пределов (кроме, конечно, математики).

Поделиться новостью