В эпоху, когда скорость обучения ИИ-моделей стала критическим фактором в гонке за масштабированием интеллекта, индустрия требует прорывных решений в каждом элементе вычислительной системы. От графических процессоров (GPU) и сетевых карт до архитектуры центров обработки данных — всё должно работать как единый, сверхбыстрый механизм.
Очередной раунд индустриального тестирования MLPerf Training v5.1 — главного соревнования по производительности обучения ИИ — подтвердил абсолютное доминирование NVIDIA. Компания не просто показала впечатляющие результаты, она взяла все семь тестов, продемонстрировав самое быстрое время обучения в ключевых областях: от масштабных языковых моделей (LLM) и генерации изображений до систем рекомендаций, компьютерного зрения и графовых нейронных сетей.
NVIDIA стала единственной платформой, представившей результаты по каждому тесту, что наглядно демонстрирует исключительную универсальность её GPU и непревзойденную зрелость программного стека CUDA.
Дебют Blackwell Ultra: Ускорение LLM в 4 Раза
Главной звездой этого раунда стала архитектура NVIDIA Blackwell Ultra. Стойка GB300 NVL72, основанная на этом GPU, впервые дебютировала в MLPerf Training, сразу же установив новые стандарты производительности.
По сравнению с предыдущим поколением на архитектуре Hopper, система на базе Blackwell Ultra (GB300 NVL72) показала более чем четырехкратное ускорение в предварительном обучении модели Llama 3.1 405B и почти пятикратное ускорение в тонкой настройке Llama 2 70B LoRA, используя при этом одинаковое количество GPU.
Такой скачок стал возможен благодаря ключевым архитектурным улучшениям: новые тензорные ядра Blackwell Ultra обеспечивают невероятные 15 петафлопс вычислительной мощности NVFP4 ИИ, удвоенную производительность вычислений для слоев внимания и оснащены 279 ГБ высокоскоростной памяти HBM3e. Кроме того, на арену вышел сетевой коммутатор NVIDIA Quantum-X800 InfiniBand — первая в индустрии платформа, обеспечивающая сквозную скорость до 800 Гбит/с для объединения множества систем GB300 NVL72, что вдвое увеличило пропускную способность по сравнению с предыдущей генерацией.
Прорыв в Точности: Эра Вычислений NVFP4
Один из самых значимых прорывов этого раунда — использование точности NVFP4 для вычислений в процессе обучения LLM, что стало абсолютным прецедентом в истории MLPerf Training.
Увеличение вычислительной мощности традиционно достигается за счет работы с меньшим количеством бит данных, что позволяет выполнять расчеты быстрее. Однако это требует филигранного инженерного подхода для сохранения высокой точности результата. Команды NVIDIA совершили инновации на всех уровнях программного стека, чтобы адаптировать формат FP4 для обучения языковых моделей. GPU Blackwell может выполнять вычисления в формате FP4 (включая собственный формат NVFP4) в три раза быстрее, чем FP8 на архитектуре Blackwell Ultra.
На данный момент NVIDIA — единственная платформа, которая смогла представить результаты MLPerf Training, использующие точность FP4, и при этом удовлетворить строгим требованиям бенчмарка к точности моделей.
Рекорд в 10 Минут: Масштабное Обучение
Результаты NVIDIA наглядно демонстрируют, как компания осваивает не только производительность отдельных чипов, но и невероятный масштаб. NVIDIA установила новый рекорд времени обучения модели Llama 3.1 405B — всего 10 минут, задействовав для этого более 5000 GPU Blackwell. Это результат стал в 2.7 раза быстрее, чем лучший показатель на Blackwell в прошлом раунде, что объясняется эффективным масштабированием и внедрением точности NVFP4.
Новые рекорды были установлены и в недавно добавленных тестах: Llama 3.1 8B (современная компактная LLM, заменившая BERT-large), где NVIDIA установила планку в 5.2 минуты обучения, и FLUX.1 (передовой генератор изображений, пришедший на смену Stable Diffusion v2), на котором результаты представила только NVIDIA, достигнув времени обучения 12.5 минут.
Эти достижения подтверждаются широкой поддержкой экосистемы: в раунде приняли участие 15 партнеров NVIDIA, включая таких гигантов, как Dell Technologies, HPE, Lenovo, Supermicro, а также исследовательские центры. NVIDIA, обновляя свои платформы с годичным циклом, не просто выпускает новое железо, а стремительно ускоряет внедрение ИИ, прокладывая дорогу к новому уровню интеллекта.
