Nvidia представила открытую LLM модель Nemotron-4 340B

Компания Nvidia представила открытую большую языковую модель (LLM) Nemotron-4 340B. Она может применятся в здравоохранении, финансах, производстве и розничной торговли. Nemotron-4 340B обучалась на 50+ естественных языках и 40+ языках программирования — всего на 9 трлн. токенах. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста ограничена 4096 токенами. […]

The post Nvidia представила открытую LLM модель Nemotron-4 340B appeared first on InfoCity.

Компания Nvidia представила открытую большую языковую модель (LLM) Nemotron-4 340B. Она может применятся в здравоохранении, финансах, производстве и розничной торговли.

Nvidia Nemotron-4 340BNemotron-4 340B обучалась на 50+ естественных языках и 40+ языках программирования — всего на 9 трлн. токенах. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста ограничена 4096 токенами.

Модель представлена в трех версиях: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward.

  • Base — предназначена для генерации синтетических данных;
  • Instruct — для чата и выполнения инструкций;
  • Reward — base-модель с дополнительным линейным слоем для обученияс использованием нового reward-подхода.

     

Модели оптимизированы для работы с платформой Nvidia NeMo и вывода с помощью библиотеки TensorRT-LLM с открытым исходным кодом. Nemotron-4 340B распространяется под лицензией Nvidia Open Model License Agreement, разрешающая коммерческое использование.

Nemotron-4 340B уже доступна для загрузки с Hugging Face.

The post Nvidia представила открытую LLM модель Nemotron-4 340B appeared first on InfoCity.

Читайте на 123ru.net