«Убийца» ChatGPT получила крупное обновление: на что способна открытая ИИ-модель
DeepSeek V3 продемонстрировала выдающиеся результаты в программировании и обработке текста и закрепил за собой статус одного из самых мощных открытых решений.
Нейросеть DeepSeek V3, разработанная китайской компанией DeepSeek, позиционируется как одно из самых мощных и доступных открытых решений на рынке. Модель уже успела привлечь внимание экспертов TechCrunch благодаря впечатляющим характеристикам и успешному соперничеству с лидерами отрасли.
Основные возможности
DeepSeek V3 способна выполнять широкий спектр задач: от написания кода и перевода текстов до создания сложных аналитических материалов. По данным внутренних тестов разработчика, модель превосходит своих конкурентов как в открытом, так и закрытом сегментах. Особенно впечатляют ее результаты в программировании. На платформе Codeforces, популярной среди программистов, DeepSeek V3 продемонстрировала результаты выше, чем модели Llama 3.1 и OpenAI GPT-4o.
Технические особенности
Ключевой элемент успеха DeepSeek V3 — ее масштаб. Модель содержит 671 миллиард параметров, что значительно превышает возможности большинства аналогов. Для ее обучения использовали колоссальный объем данных: 14,8 триллиона токенов, что эквивалентно миллионам страниц текста. Несмотря на огромные вычислительные требования, DeepSeek смогла оптимизировать процесс. Модель была обучена всего за два месяца на кластере из Nvidia H800 GPU.