Китайцы не отстают: обновлённая нейросеть DeepSeek превосходит GPT-4o и Llama 3.1

Вчера, 26 декабря, китайская компания DeepSeek, которая специализируется на разработке и обучении больших языковых моделей искусственного интеллекта, официально представила миру свою новую модель DeepSeek V3 — одно из самых мощных «открытых» решений на сегодняшний день. Например, в рамках проведения испытаний в области написания кода данная модель почти во всех тестах обошла новейшую GPT-4o от OpenAI, Llama 3.1, Claude 3.5 Sonnet и Qwen 2.5 от Alibaba. Особенно стоит обратить внимание на тест Aider Polyglot, который испытывает возможность большой языковой модели дописывать и интегрировать новый код в уже существующий.

Также новая модель справилась с наибольшим количеством задач с платформы Codeforces, на которой проводятся состязания для программистов со всего мира. Впрочем, значительные достижения у новинки заметны не только в написании кода — при решении математических задач DeepSeek V3 заметно лучше справляется с тестом MATH-500, а в CNMO 2024 буквально на голову разбивает оппонентов. Для примера, свежая модель набирает 43,2 балла в тесте, где GPT-4o показала всего 10,8 балла. При этом весьма забавно, что ИИ из Китая лучше разбирается не только с задачами, связанными с китайским языком, но и обходит американских конкурентов в случае с английским.

Но и это ещё не всё — представители китайской компании заявили, что им удалось обучить DeepSeek V3 всего за два месяца, используя центр обработки данных на базе графических ускорителей NVIDIA H800. На эту задачу у них ушло всего 5,5 миллиона долларов — для сравнения, компания OpenAI потратила на обучение семейства моделей GPT-4 примерно 78 миллионов долларов. И это при учёте того, что у американской компании есть полный доступ к передовым технологиям компании NVIDIA, а китайские исследователи находятся под санкциями и просто не могут купить топовые решения последнего поколения. Вероятно, без таких ограничений ИИ из Китая был бы ещё мощнее.

Кроме того, представители китайской компании выпустили свою модель DeepSeek V3 в открытый доступ с лицензией, которая предоставляет пользователям возможность загружать LLM, модифицировать её и даже использовать в своих приложениях — в том числе коммерческих. Это в корне отличается от «закрытых» больших языковых моделей от той же OpenAI, которая предоставляет доступ к своей нейросети исключительно через API и взимает плату за доступ к новейшим решениям, либо же ограничивает количество запросов с бесплатной подпиской.

Читайте на 123ru.net