### Новые ИИ-модели от Alibaba обошли GPT-4o в математике
Недавно компания Alibaba представила новую группу больших языковых моделей (LLM) под названием Qwen2-Math, которые, по заявлению разработчиков, превосходят такие известные модели, как GPT-4o от OpenAI и Claude 3.5 от Anthropic, в решении математических задач. Презентация состоялась в рамках подразделения облачных вычислений Alibaba, и вызвала широкий резонанс в научном и технологическом сообществе.
Команда Qwen, входящая в состав Alibaba, отметила, что за последний год они активно работали над улучшением возможностей рассуждений больших языковых моделей, уделяя особое внимание их способности решать арифметические и математические задачи. Флагманская модель Qwen2-Math-72B-Instruct, по их словам, превзошла американских конкурентов в математике, включая GPT-4o, Claude 3.5 Sonnet от Anthropic, Gemini 1.5 Pro от Google и Llama-3.1-405B от Meta Platforms.
### Реакции и мнения
Новость о запуске Qwen2-Math вызвала бурные обсуждения среди экспертов и пользователей. Многие выразили восхищение достижениями Alibaba в области искусственного интеллекта.
«Мы надеемся, что Qwen2-Math сможет внести свой вклад в научное сообщество, решая сложные математические задачи, которые требуют многоэтапных логических рассуждений», — отметили разработчики.
### Тестирование и результаты
Новые ИИ-модели были протестированы на различных математических задачах на английском и китайском языках. Среди них:
– **GSM8K** — набор данных из ~8000 задач для учащихся начальной и средней школы.
– **OlympiadBench** — задачи высокого уровня, требующие абстрактного мышления, логики и математических знаний.
– **GaoKao** — национальный вступительный экзамен в вузы Китая, считающийся одним из самых сложных в мире.
Результаты тестирования показали, что Qwen2-Math значительно превосходит своих конкурентов в решении этих задач. Однако команда разработчиков отметила, что модели пока поддерживают только английский язык, и в ближайшее время планируется выпуск двуязычных и многоязычных версий.
### Заключение и прогнозы
Запуск Qwen2-Math от Alibaba представляет собой значительный шаг вперед в области искусственного интеллекта и математических вычислений. Эти модели могут существенно повлиять на научные исследования и образовательные процессы, предоставляя новые инструменты для решения сложных задач. В будущем можно ожидать дальнейшего развития и улучшения этих моделей, а также их интеграции в различные области науки и техники.
Таким образом, успех Qwen2-Math открывает новые горизонты для применения ИИ в математике и других смежных областях, что может привести к значительным прорывам в науке и технике.