OpenAI представила модели o3: думают как о1, но делают всё гораздо лучше

Сегодня, 20 декабря, компания OpenAI официально представила миру семейство моделей o3 (на данный момент речь идёт про o3 и o3-mini), которые выступают преемниками «разумной» о1 и ещё на шаг приближают разработчика к созданию общего искусственного интеллекта. Например, в рамках теста ARC-AGI, который был специально создан для сравнения возможностей искусственного интеллекта с интеллектом человека, модель o3 более чем в три раза превзошла возможности o1, продемонстрировав результат в 88%.

А в рамках теста EpochAI's Frontier Math новая модель поставила новый рекорд, решив 25,2% задач. Стоит отметить, что ни одна другая модель ранее не могла превзойти отметку даже в 2%.

Кроме того, при прохождении теста AIME 2024 модель o3 набрала 96,7%, пропустив всего один вопрос, а в процессе испытания GPQA Diamond модель набрала 87,7% — значительно больше, чем любой результат человека-эксперта. Есть внушительные достижения и в вопросах написания кода — при прохождении бенчмарка SWE-bench Verified свежая модель набрала 71,7% точности ответов, тогда как версия o1 preview демонстрирует всего 41,3% точности. В Codeforces o3 набирает 2727 баллов — почти в 2,5 раза больше собрата. И это при учёте того, что модель o1 на самом деле тоже весьма производительная и «умная».

Весомым преимуществом o3, как и o1, является возможность модели «рассуждать» и эффективно проверять свои же факты, чтобы избегать различного рода ошибок и галлюцинаций. Правда, разработчики из OpenAI заявили, что процесс проверки фактов перед выдачей ответа приводит к небольшой задержке — от нескольких секунд до нескольких минут (зависит от сложности вопроса). Но преимущество в том, что эта задержка, связанная с тем, что искусственный интеллект «думает» перед тем, как ответить пользователю, позволяет модели более точно отвечать на вопросы по физике, математике и прочих точных науках.

Хорошая новость в том, что пользователь может регулировать время рассуждений модели — можно настроить низкий, средний или высокий уровень времени на обдумывание ответа (чем выше этот уровень, тем лучше работает o3). При этом журналисты из издания TechCrunch отмечают, что основной недостаток «рассуждающих» моделей в том, что для их работы требуется гораздо больше вычислительных мощностей, так что в итоге они дороже «обычных» решений. И хотя пока что такие ИИ показывают внушительный прирост результатов в бенчмарках, не совсем ясно, смогут ли модели поддерживать такие темпы в обозримом будущем.

Читайте на 123ru.net