Модель o1 преодолела границы человеческих возможностей в задачах.
OpenAI выпустила предварительную версию нового ИИ-модели под названием o1-preview, которая уже демонстрирует впечатляющие результаты в различных интеллектуальных задачах. Согласно тестам, o1 превзошла своих предшественников по многим параметрам, включая способность к рассуждениям и решению сложных задач в областях программирования, математики и науки. Эта модель, несмотря на ранний этап разработки, уже показывает высокие результаты в конкурсах по программированию, в том числе на платформе Codeforces, а также успешно справляется с заданиями, предназначенными для участников таких конкурсов, как Математическая олимпиада США (AIME) и задачи уровня PhD по физике, биологии и химии.
Модель о1 существенно улучшает свои показатели с увеличением как обучающих вычислительных мощностей, так и времени, отведенного на размышление при тестировании. Такая структура позволяет модели более эффективно обрабатывать сложные задачи, в том числе те, которые требуют цепочки рассуждений. Это нововведение выгодно отличает o1 от предыдущих моделей, таких как GPT-4o.
Одна из ключевых задач, для которой тестировалась модель, включала экзамены и интеллектуальные задачи с акцентом на развитие логического мышления. На примере сложных экзаменов по программированию, математике и вопросам науки, таких как AIME 2024 и GPQA , o1 превзошла GPT-4o. На Математической олимпиаде для старшеклассников o1 успешно решила 74% задач, а при дополнительной обработке и использовании более сложных вычислений показатель повысился до 93%.
Еще одним важным аспектом является способность модели к самообучению с помощью цепочки рассуждений. Модель учится на своих ошибках, выбирая наиболее эффективные стратегии для решения сложных задач. Это значительно улучшает возможности в анализе и поиске решений в непростых задачах, от шифрования и кодирования до кроссвордов и научных вопросов. Важным аспектом также стало повышение производительности в конкурентной среде — o1 заняла высокие места на таких платформах, как Codeforces, продемонстрировав навыки, сопоставимые с человеческими экспертами.
Модель также продемонстрировала улучшенные показатели безопасности. Новые механизмы обучения обеспечивают соответствие требованиям безопасности и соответствия этическим стандартам. Разработчики OpenAI заявляют, что цепочка рассуждений может не только усилить безопасность работы модели, но и сделать её мышление более прозрачным и предсказуемым, что особенно важно для предотвращения вредоносного поведения.
Разработка продолжается, и OpenAI планирует выпускать усовершенствованные версии модели, ожидая, что её способности окажут значительное влияние на области науки, программирования и других интеллектуально насыщенных сфер.
Никаких овечек — только отборные научные факты