«Убийца» ChatGPT получила крупное обновление: на что способна открытая ИИ-модель

DeepSeek V3 продемонстрировала выдающиеся результаты в программировании и обработке текста и закрепил за собой статус одного из самых мощных открытых решений.

Нейросеть DeepSeek V3, разработанная китайской компанией DeepSeek, позиционируется как одно из самых мощных и доступных открытых решений на рынке. Модель уже успела привлечь внимание экспертов TechCrunch благодаря впечатляющим характеристикам и успешному соперничеству с лидерами отрасли.

Основные возможности

DeepSeek V3 способна выполнять широкий спектр задач: от написания кода и перевода текстов до создания сложных аналитических материалов. По данным внутренних тестов разработчика, модель превосходит своих конкурентов как в открытом, так и закрытом сегментах. Особенно впечатляют ее результаты в программировании. На платформе Codeforces, популярной среди программистов, DeepSeek V3 продемонстрировала результаты выше, чем модели Llama 3.1 и OpenAI GPT-4o.

Технические особенности

Ключевой элемент успеха DeepSeek V3 — ее масштаб. Модель содержит 671 миллиард параметров, что значительно превышает возможности большинства аналогов. Для ее обучения использовали колоссальный объем данных: 14,8 триллиона токенов, что эквивалентно миллионам страниц текста. Несмотря на огромные вычислительные требования, DeepSeek смогла оптимизировать процесс. Модель была обучена всего за два месяца на кластере из Nvidia H800 GPU.

Читайте на 123ru.net