Прорыв в ИИ-обучении: Zyphra создала модель ZAYA1 на платформе AMD Instinct MI300X

Компания AMD объявила о значительном технологическом успехе в области крупномасштабного обучения искусственного интеллекта. Стартап Zyphra разработал ZAYA1 — первую крупномасштабную фундаментальную модель Mixture-of-Experts (MoE), полностью обученную с использованием графических процессоров и сетевой платформы AMD.

Это достижение, подробно описанное в техническом отчете Zyphra, стало возможным благодаря использованию передовых GPU AMD Instinct MI300X и сетевых решений AMD Pensando, объединенных открытым программным стеком AMD ROCm.

ZAYA1 доказывает эффективность AMD в масштабе

Результаты, опубликованные Zyphra, впечатляют: модель ZAYA1 демонстрирует конкурентоспособную или превосходящую производительность по сравнению с ведущими открытыми моделями в ключевых тестах, включая логическое мышление, математику и кодирование. Это убедительно доказывает масштабируемость и эффективность GPU AMD Instinct для рабочих нагрузок ИИ производственного уровня.

Эмад Барсум, корпоративный вице-президент AMD по ИИ и инжинирингу, заявил: «Лидерство AMD в сфере ускоренных вычислений позволяет таким новаторам, как Zyphra, расширять границы возможного в ИИ. Этот успех демонстрирует мощность и гибкость GPU AMD Instinct и сетевых решений Pensando для обучения сложных, крупномасштабных моделей».

Генеральный директор Zyphra Критик Путхалат подчеркнул, что эффективность является основным принципом их компании. Он отметил, что ZAYA1-Base (при общем количестве 8,3 миллиарда параметров и 760 миллионах активных) сравнивается или превосходит по производительности такие модели, как Qwen3-4B, Gemma3-12B и Llama-3-8B, используя при этом лишь малую часть активных параметров.

192 ГБ памяти и оптимизация I/O

Для достижения такой беспрецедентной эффективности ключевую роль сыграла память. 192 ГБ высокоскоростной памяти (HBM), которой оснащен каждый GPU AMD Instinct MI300X, позволили Zyphra проводить крупномасштабное обучение без необходимости прибегать к дорогостоящему и усложняющему процесс шардированию экспертов или тензоров. Это не только упростило архитектуру, но и значительно повысило пропускную способность.

Кроме того, Zyphra сообщила, что оптимизированная AMD распределенная система ввода-вывода (I/O) позволила более чем в 10 раз ускорить время сохранения модели, что повысило надежность и общую эффективность процесса обучения.

Проект ZAYA1 — это результат тесного сотрудничества Zyphra с AMD и IBM. Ранее анонсированная совместно разработанная система AMD и IBM объединила GPU Instinct MI300X с высокопроизводительной сетевой и дисковой архитектурой IBM Cloud, заложив основу для крупномасштабного предварительного обучения ZAYA1. Zyphra с нетерпением ждет углубления сотрудничества, планируя создание следующего поколения продвинутых мультимодальных фундаментальных моделей.