Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant

26.03.2026 11:15

«3DNews»

Исследовательский отдел Google Research опубликовал работу о технологии TurboQuant — алгоритме квантизации, который сокращает разрядность KV-кеша больших языковых моделей до 3 битов без потери точности в ответах и без потребности в дополнительном обучении. В тестах на ускорителях искусственного интеллекта Nvidia H100 4-битный алгоритм TurboQuant (с четвёртым битом на коррекцию ошибок) помог восьмикратно повысить производительность при вычислении логитов внимания в сравнении с неквантованными 32-битными ключами; при этом объём KV-кеша сократился в шесть раз. Источник изображения: and machines / unsplash.com

Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant

Читайте на сайте

Вопросы - ответы

Религия

Game24.pro

Документальные новости