NVIDIA делает MoE-модели практичными: архитектура GB200 NVL72 снимает ключевые ограничения масштабирования

Архитектура Mixture-of-Experts за последние два года стала фундаментом для самых продвинутых ИИ-систем, и сегодня именно она определяет развитие моделей фронтир-класса. Подобно тому как человеческий мозг включает лишь нужные области, MoE-модели активируют только релевантные «эксперты» для каждого токена, снижая вычислительную нагрузку и повышая эффективность. Этим подходом уже пользуются все сильнейшие open-source модели на рейтинге Artificial Analysis — от DeepSeek-R1 и Kimi K2 Thinking до gpt-oss-120B и Mistral Large 3. Однако высокая сложность эксплуатации и масштабирования MoE долго оставалась серьёзным барьером для разработчиков, которым приходилось сталкиваться с ограничениями памяти, высоким давлением на пропускную способность и ростом сетевых задержек при параллельной работе экспертов.

NVIDIA заявляет, что решила эту проблему радикально: архитектура GB200 NVL72, объединяющая 72 Blackwell-GPU в единое вычислительное пространство с 1,4 экзафлопса производительности и 30 ТБ быстрой общей памяти, позволяет MoE-моделям работать на принципиально новом уровне. Система построена на масштабной NVLink-фабрике с пропускной способностью 130 ТБ/с, что обеспечивает мгновенную коммуникацию между всеми GPU и снимает ключевые ограничения, присущие платформам класса H200. По данным компании, MoE-модель Kimi K2 Thinking получает десятикратный прирост скорости по сравнению с работой на HGX H200, а аналогичные скачки наблюдаются и у DeepSeek-R1, и у Mistral Large 3.

Главный эффект нового подхода — перераспределение экспертов между 72 ускорителями, что уменьшает нагрузку на память каждого GPU и повышает пропускную способность при работе с большим количеством пользователей и длинными контекстами. NVLink Switch также принимает участие в вычислениях, ускоряя агрегацию данных от разных экспертов. Этот аппаратный фундамент дополняют программные оптимизации: NVFP4 обеспечивает высокую точность при меньшем энергопотреблении, а платформа Dynamo разделяет предзаполнение и декодирование между разными группами GPU, что позволяет наиболее эффективно распределять ресурсы внутри модели. Поддержка этих технологий уже реализована в TensorRT-LLM, SGLang и vLLM, а сама NVL72 внедряется в инфраструктуру крупнейших облачных провайдеров, включая AWS, Google Cloud, CoreWeave, Lambda и Microsoft Azure.

Разработчики уверены, что именно MoE станет стандартом для ИИ-систем следующего поколения. Представители Mistral AI отмечают, что этот подход обеспечивает высокую производительность при заметно меньшем расходе энергии, а компании вроде DeepL и CoreWeave уже используют NVL72 для обучения и развертывания новых моделей. Сочетание аппаратной плотности, скоростной связи и оптимизированного софта делает MoE не только более быстрыми, но и экономичными — а значит, ещё более привлекательными для массового внедрения.

Полную публикацию NVIDIA с дополнительными материалами можно найти на официальном сайте компании.

Александр Перевозчиков

Editor

Просмотреть все записи

Об авторе

Александр Перевозчиков