AMD объявила о выходе ROCm 7.2 — одного из самых масштабных обновлений своей открытой программной платформы для ИИ и высокопроизводительных вычислений. Новый релиз ориентирован не только на рост «сырой» производительности, но и на повышение зрелости экосистемы, удобства для разработчиков и готовности к эксплуатации в корпоративных и облачных средах. Компания подчеркивает, что современные ИИ-нагрузки требуют тесной интеграции компиляторов, библиотек, коммуникационных стеков и инструментов управления, и именно на этом уровне ROCm 7.2 приносит ключевые улучшения.
Значительная часть обновлений сосредоточена вокруг ускорения матричных вычислений, лежащих в основе обучения и инференса нейросетей. В ROCm 7.2 AMD провела глубокую настройку GEMM-ядeр для форматов FP8, BF16 и FP16 на ускорителях Instinct MI300X, MI350 и MI355, ориентируясь на реальные модели заказчиков, включая GLM-4.6 и семейство Llama. Оптимизация затронула выбор ядер, стратегии тайлинга, компоновку данных и перемещение по памяти, что дало измеримый прирост пропускной способности и снижение задержек в практических сценариях. Дополнительно были расширены возможности hipBLASLt: платформа получила более гибкие инструменты тюнинга, улучшенную воспроизводимость результатов и более прозрачную аналитику поведения вычислительных ядер.
Важным шагом стало расширение поддержки низкой точности вычислений. ROCm 7.2 включает полноценное внедрение форматов FP8 и FP4 на уровне компиляторного и графового стека — в rocMLIR и MIGraphX. Это создает основу для более эффективного обучения и инференса современных моделей и одновременно подготавливает экосистему к новым поколениям ускорителей AMD, включая вывод на рынок серии MI350.
Серьезные изменения затронули и коммуникационный слой. В ROCm 7.2 AMD существенно продвинула взаимодействие GPU между собой и между узлами. Поддержка GPUDirect Async позволяет ускорителям обмениваться данными напрямую, минуя CPU, что снижает задержки и разгружает систему. Библиотека RCCL стала более «топологически осознанной», научившись эффективно использовать многоканальные сетевые конфигурации с несколькими сетевыми адаптерами. За счет этого коллективные операции масштабируются стабильнее и быстрее, особенно в крупных распределенных ИИ-кластерах.
Отдельное внимание уделено корпоративным требованиям. Для ускорителей MI350X и MI355X в ROCm 7.2 реализованы расширенные возможности SR-IOV и RAS, необходимые для безопасной и надежной работы в многопользовательских средах. Улучшения направлены на повышение устойчивости к ошибкам памяти, усиление изоляции виртуализированных нагрузок и соответствие ожиданиям гиперскейлеров и крупных дата-центров.
AMD также обновила компиляторную инфраструктуру, добавив поддержку ThinLTO для GPU. Это позволяет выполнять межфайловые оптимизации без резкого роста времени сборки, что особенно важно для сложных ИИ-фреймворков и кастомных вычислительных стеков. В результате разработчики получают более оптимизированный код при сохранении высокой скорости разработки.
На уровне готовых моделей компания отмечает заметный прогресс в оптимизации популярных нейросетей под Instinct MI300X и MI350. Для ускорителей MI355X и MI350X были доработаны крупные версии Llama, включая Llama 3.1 405B, с акцентом на пропускную способность памяти и эффективность ядер. Для MI300X AMD сосредоточилась на ускорении GLM-4.6 и улучшениях в DeepEP, что повышает общую утилизацию GPU и производительность инференса.
Дополняет картину система Node Power Management, которая динамически управляет энергопотреблением и частотами нескольких GPU в одном узле. Это позволяет удерживать энергобюджет в заданных рамках без ручной настройки, что особенно важно для плотных серверных конфигураций и виртуализированных сред.
В целом ROCm 7.2 демонстрирует, что платформа AMD выходит на новый уровень зрелости, сочетая рост производительности с масштабируемостью, надежностью и удобством эксплуатации. Компания позиционирует релиз как очередной шаг к формированию полноценной, открытой и конкурентоспособной экосистемы для ИИ и HPC, готовой к реальным промышленным нагрузкам.

