AMD ROCm 7.0 усиливает позиции в обучении ИИ: новые Docker-сборки, Primus и ускорение LLM на Instinct MI355X

AMD ROCm 7.0 усиливает позиции в обучении ИИ: новые Docker-сборки, Primus и ускорение LLM на Instinct MI355X

AMD представила крупное обновление экосистемы для высокопроизводительного обучения крупных языковых моделей, выпустив ROCm 7.0 и новую серию обучающих Docker-образов версии 25.9. Обновление нацелено на повышение эффективности тренировки LLM как в PyTorch, так и в JAX, а также на улучшенную масштабируемость от одиночных GPU до многоузловых кластеров. В центре релиза — оптимизации для GPU AMD Instinct серии MI355X и глубокая интеграция фреймворка Primus, призванного упростить разработку и ускорить обучение современных трансформерных моделей.

С выходом ROCm 7.0 компания усилила поддержку больших моделей в PyTorch благодаря включению Primus — унифицированного фреймворка для разработки и тренировки LLM, который теперь работает как с TorchTitan, так и с Megatron-LM. Подход с модульной конфигурацией делает процесс настройки воспроизводимым и гибким, а новая библиотека Primus-Turbo значительно увеличивает пропускную способность при работе с трансформерами на GPU Instinct MI355X. Обновлённый PyTorch/Megatron-LM Docker 25.9 демонстрирует заметный рост эффективности как на плотных моделях LLaMA 3, так и на MoE-сетях уровня Mixtral.

JAX MaxText также получил серьёзные улучшения: обновлённый Docker-образ ROCm 7.0 обеспечивает из коробки рабочую среду для MI355X, включая JAX, XLA и необходимые ROCm-библиотеки. Благодаря этому исследователи могут использовать функциональный подход JAX и высокую скорость масштабирования без сложных подготовительных этапов. В тестах MaxText GPU MI355X стабильно обгонял B200 на плотных моделях LLaMA последних версий и показывал сопоставимые результаты на MoE-сетях.

Особое внимание в AMD уделяют масштабированию. В многоузловых конфигурациях Primus-Megatron MI355X демонстрирует впечатляющую эффективность: Mixtral 8×22B в режиме BF16 ускоряется более чем на 14 процентов на четырёх узлах по сравнению с B200, а крупные модели вроде Llama3 70B сохраняют практически полный паритет. Даже экстремально большая Llama3.1 405B показывает конкурентное соотношение производительности при распределённом обучении на восьми узлах.

Совокупность обновлений ROCm 7.0, улучшенной интеграции Primus и появление Primus-Turbo фиксируют стремление AMD продвигаться в сегменте высокопроизводительного обучения ИИ, где пропускная способность (tokens/gpu/s) является ключевым параметром. Компания фактически предлагает платформу, которая позволяет не только ускорить обучение современного ИИ, но и упростить создание и масштабирование LLM следующего поколения, снижая барьеры как для исследователей, так и для разработчиков.