Nvidia выкатила нейросеть Nemotron-4 340B — настоящую «убийцу» GPT-4o
Это бесплатное семейство нейросетей, которое найдет широкое применение, в том числе для обучения генеративного ИИ.
14 июня компания Nvidia представила серию открытых моделей Nemotron-4 340B, которые разработчики могут использовать для создания синтетических данных. Они предназначены для применения в коммерции, включая здравоохранение, финансы, производство и розничную торговлю. Качественные обучающие данные — ключевой фактор для эффективной работы LLM, но надёжные наборы данных могут быть слишком дорогими и труднодоступными. Nemotron-4 340B даёт разработчикам бесплатный и масштабируемый способ создания синтетических данных.
Ее обучали на более чем 50 языках естественного общения и свыше 40 языках программирования — всего на 9 трлн токенах. Архитектура языковой модели основана на двух методах: Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Однако длина контекста в модели ограничена 4096 токенами.
Модель представлена в виде Nemotron-4−340B-Base, Nemotron-4−340B-Instruct и Nemotron-4−340B-Reward, где:
Base — отвечает за генерацию синтетических данных;Instruct — отвечает за ведение чата и выполнение инструкций;Reward — base-модель с дополнительным линейным слоем для обучения с использованием нового reward-подхода.