В мире, где искусственный интеллект становится основой бизнеса, производительность инференса — то есть скорость обработки запросов — напрямую влияет на экономическую эффективность. Чем выше пропускная способность, тем больше токенов может быть произведено, что увеличивает доход и снижает общую стоимость владения. И в этой гонке за эффективность компания NVIDIA в очередной раз подтвердила своё лидерство.
На новых тестах MLPerf Inference v5.1 система NVIDIA GB300 NVL72, построенная на архитектуре Blackwell Ultra, установила очередной рекорд, показав на 1.4x большую пропускную способность в тесте DeepSeek-R1 по сравнению с предыдущими системами на архитектуре Blackwell. Это достижение было сделано всего за полгода с момента её дебюта на выставке GTC.
Архитектура Blackwell Ultra является прямым развитием своего предшественника, предлагая в 1.5 раза больше вычислительной производительности в формате NVFP4 и в 2 раза более быструю обработку слоёв внимания. Кроме того, каждая графическая карта оснащена до 288 ГБ памяти HBM3e. Новая платформа NVIDIA не просто улучшила, а полностью доминировала, установив рекорды во всех новых тестах MLPerf, включая DeepSeek-R1, Llama 3.1 405B Interactive, Llama 3.1 8B и Whisper.
Секрет успеха — комплексный подход
NVIDIA объясняет свои успехи не только мощным «железом», но и комплексным подходом к разработке, который включает в себя как аппаратные, так и программные оптимизации. Архитектуры Blackwell и Blackwell Ultra поддерживают формат данных NVFP4 — 4-битный формат с плавающей точкой, разработанный самой NVIDIA. Этот формат обеспечивает высокую точность и позволяет значительно ускорить вычисления.
Для достижения рекордных результатов компания использовала собственное ПО NVIDIA TensorRT Model Optimizer, которое перевело модели в формат NVFP4. В сочетании с библиотекой TensorRT-LLM, эта оптимизация позволила Blackwell и Blackwell Ultra показать феноменальную производительность.
NVIDIA также активно применяет технику «разобщённого обслуживания», которая разделяет задачи инференса на две части — обработку контекста и генерацию токенов. Такой подход позволил оптимизировать каждый этап по отдельности, что привело к увеличению производительности на 50% на один графический процессор.
Благодаря усилиям NVIDIA, её партнёры, включая крупнейших облачных провайдеров и производителей серверов, также смогли показать отличные результаты на платформах Blackwell и Hopper. Это говорит о том, что лидирующая производительность NVIDIA доступна по всему миру, что позволяет компаниям снизить общую стоимость владения и получить максимальную отдачу от инвестиций в технологии ИИ.