NVIDIA готовит ускорители GB300: больше памяти, выше производительность
Компания выпустила вычислительный кристалл B300 (ранее упоминавшийся как Blackwell Ultra) на базе кастомного техпроцесса TSMC 4NP. Он обеспечивает примерно на 50 % больше FLOPS, чем его предшественник B200, при общем увеличении TDP до 1,4 кВт у GB300 и 1,2 кВт у B300 HGX. Специалисты полагают, что часть роста производительности достигается за счёт более высоких рабочих мощностей, а оставшийся прирост вызван архитектурными изменениями и новыми способами динамически распределять мощность между CPU и GPU.
Ускорители B300 оснащают памятью HBM3E в конфигурации 12-Hi вместо прежних 8-Hi, благодаря чему общий объём вырос до 288 Гбайт. Пропускная способность памяти по-прежнему сохраняется на уровне 8 Тбайт/с, поскольку скорость на контакт не изменилась. При этом инженеры делают ставку на то, что дополнительная ёмкость памяти даёт заметное преимущество в обучении и инференсе больших языковых моделей, где размер обрабатываемых последовательностей и объём KVCache напрямую влияют на скорость генерации ответов.
Опыт с обновлением H100 до H200 показывает, насколько сильно память влияет на итоговую производительность. Более высокая пропускная способность, которую раньше подняли с 3,35 Тбайт/с до 4,8 Тбайт/с, ускорила интерактивный инференс почти на 43 %. Дополнительное пространство в памяти помогло сократить объём передаваемых данных и увеличить допустимый размер KVCache, увеличивая количество генерируемых токенов в секунду втрое. По сообщениям экспертов, такая оптимизация особенно полезна для более «продвинутых» моделей, способных приносить более высокую прибыль от каждого ускорителя.
Однако одних улучшений скорости и памяти недостаточно, что подтверждают попытки AMD с Instinct MI300X, MI325X и MI355X (от 192 до 288 Гбайт). Аналитики отмечают, что их возможности ограничены не столько ПО, сколько спецификой соединения ускорителей между собой. NVIDIA предлагает коммутацию «все ко всем» через NVLink, позволяя 72 GB200 или GB300 ускорителям обрабатывать одну и ту же задачу, снижать задержку для крупных языковых моделей и при этом сохранять экономическую целесообразность.
Исследователи предполагают, что только NVL72 даёт возможность расширять длину инференса до более чем 100 тысяч токенов без критичного роста стоимости. По словам https://semianalysis.com/2024/12/25/nvidias-christmas-presen... , это значит, что NVIDIA пока остаётся единственным поставщиком комплексных решений, способных удовлетворить запросы на реализацию больших языковых моделей, сохраняя при этом высокую скорость, масштабируемость и экономическую выгоду.