Новая версия GPT-4 показывает впечатляющие результаты в математических олимпиадах

Вышла GPT-4 с улучшенной математической способностью, покоряющая олимпиадные задачи. На соревновании AI Math Olympiad показала высокие результаты, решив 5 из 10 задач. OpenAI отмечает "существенный прогресс" в математике. Модель скоро будет интегрирована в ChatGPT. CMD-R+ от Cohere обогнала исходный GPT-4, но Claude 3 Opus пока лидирует.
Новости 2024 04 10

Недавно вышло обновление для ChatGPT - новая версия GPT-4 с суффиксом 04-09, впечатляюще справившаяся с математическими задачами на олимпиадном уровне. После участия в AI Mathematical Olympiad Prize на Kaggle, новая модель GPT-4 успешно решила 5 из 10 задач, в то время как конкурирующая модель Claude 3 Opus справилась только с одной задачей. Сотрудники OpenAI назвали это существенным прогрессом, особенно в области математики. Ожидается, что обновленная модель будет интегрирована в ChatGPT и будет доступна на платформе LMSYS Arena для увидеть улучшения.

Выход нового GPT-4 совпал с обновлением рейтинга, где модель CMD-R+ от Cohere обогнала предыдущие версии GPT-4, но Claude 3 Opus по-прежнему лидирует. Ожидается публикация метрик, демонстрирующих рост качества рассуждений и способностей GPT-4 в математике. Это свидетельствует о новом витке развития моделей, вызванном быстрорастущей конкуренцией, и GPT-4, внедряя новые стандарты, продвигается вперед.

AI Mathematical Olympiad

Конкурс AI Mathematical Olympiad представляет собой соревнование по математике, состоящее из 110 задач, аналогичных по стилю тем, что встречаются в AIME (American Invitational Mathematics Examination). Каждая задача имеет ответ в виде неотрицательного целого числа, которое необходимо сообщить по модулю 1000. Например, если вы считаете, что ответ на задачу равен 2034, ваш прогноз должен быть 34.

Ожидается, что сложность задач будет немного ниже, чем у AIME, и будет нацелена между уровнем AIME и AMC'12 (American Mathematics Competitions) уровня.

Все задачи представлены только в текстовом формате с математической нотацией в LaTeX. Диаграммы не используются ни в одной из задач.

Публичный тестовый набор состоит из ровно 50 задач, а приватный тестовый набор состоит из другого набора из 50 задач. Также предоставляется выборка из 10 задач для использования в качестве обучающих данных. Задачи в двух тестовых наборах были выбраны таким образом, чтобы сбалансировать как сложность, так и предметную область.

Поиск