AMD объявила о поддержке языковой модели Qwen 3.5 от Alibaba на ускорителях Instinct с первого дня

Компания AMD сообщила о запуске поддержки нового поколения больших языковых моделей Qwen 3.5, разработанных командой Alibaba, на своих графических ускорителях линейки Instinct. Речь идёт о моделях AMD Instinct MI300X, AMD Instinct MI325X и AMD Instinct MI355X, которые получили так называемую Day 0-поддержку — возможность запускать и разворачивать Qwen 3.5 сразу после релиза без дополнительной адаптации.

Как отмечает AMD, интеграция была выполнена в тесном сотрудничестве с командой Qwen и опирается на оптимизированный программный стек ROCm, а также популярные фреймворки инференса SGLang и vLLM. Благодаря этому разработчики и компании могут сразу использовать модель в промышленной среде, не дожидаясь появления сторонних оптимизаций или патчей.

Ключевая ценность Qwen 3.5 заключается в работе с длинным контекстом и сложными мультимодальными сценариями. Если ранее при увеличении объёма входных данных приходилось жертвовать скоростью или точностью рассуждений, то новая версия модели на ускорителях AMD Instinct способна эффективно обрабатывать контексты объёмом до 256 тысяч токенов. Это открывает дорогу к созданию продвинутых ИИ-агентов, корпоративных ассистентов и аналитических систем, которые работают с большими массивами текста, изображений и видео в рамках одного запроса.

Одной из технологических основ Qwen 3.5 стала гибридная архитектура внимания, призванная решить проблему резкого роста вычислительных затрат при увеличении длины последовательностей. В отличие от классических трансформеров, где сложность растёт квадратично, модель использует комбинацию стандартного многоголового внимания и линейного внимания на базе Gated Delta Networks. Это позволяет сохранять производительность даже при экстремально длинных контекстах и заметно ускоряет инференс по сравнению с предыдущими поколениями, особенно при работе с последовательностями длиннее 32 тысяч токенов.

Для корпоративных пользователей важным фактором стала и экономическая эффективность. Qwen 3.5 использует разреженную архитектуру Mixture of Experts, при которой во время инференса активируется лишь часть параметров модели. В результате она способна конкурировать с более крупными плотными моделями, потребляя при этом меньше вычислительных ресурсов. Дополнительное преимущество даёт большой объём HBM-памяти ускорителей AMD Instinct, позволяющий запускать полноразмерные модели и огромные контексты на одном GPU или в пределах одного узла, снижая требования к инфраструктуре и повышая окупаемость инвестиций.

Отдельно подчёркивается нативная мультимодальность Qwen 3.5. Модель изначально проектировалась как «визуальный агент» и умеет работать с изображениями и видео благодаря использованию трёхмерных свёрток и многоуровневой агрегации визуальных признаков. Это делает её применимой для промышленных сценариев, систем поддержки, анализа видеопотоков и других задач, где требуется понимание сложной визуальной среды.

В AMD подчёркивают, что поддержка Qwen 3.5 с первого дня — это часть стратегии по развитию открытой экосистемы ИИ без жёсткой привязки к одному вендору. Совместимость с ROCm, SGLang и vLLM должна упростить развёртывание модели в продакшене и ускорить внедрение решений на базе больших языковых моделей нового поколения.