В мире высокопроизводительных вычислений появился новый, весьма неприятный баг, который затронул самые топовые видеокарты от NVIDIA — потребительскую GeForce RTX 5090 и профессиональную RTX 6000 PRO. Разработчики из компании CloudRift, создающие облачную платформу для работы с ИИ, обнаружили, что эти флагманские видеокарты могут полностью зависать после нескольких дней или недель непрерывной работы в виртуальных машинах. Что самое неприятное, происходит это совершенно спонтанно, без какой-либо видимой причины. Интересно, что при тестировании других моделей, включая мощнейшие серверные H100, B200 и даже старую RTX 4090, никаких проблем не возникло.
Разработчики смогли разобраться в технической стороне вопроса. Когда видеокарта передаётся виртуальной машине через технологии KVM и VFIO, хост-система выполняет стандартный сброс функции на уровне PCIe. Но вместо того, чтобы вернуться в рабочее состояние, как это происходит обычно, карта просто перестаёт отвечать. Ядро системы сообщает об ошибке “not ready 65535ms after FLR; giving up”, что означает, что сброс не удался и устройство стало неактивным. Это прямое указание на то, что проблема кроется в самой видеокарте. Чтобы найти решение как можно скорее, CloudRift даже объявила награду в $1000 тому, кто сможет найти способ устранить этот баг.
Инцидент оказался не единичным. На форумах Level1Tech другие пользователи также начали сообщать о подобных сбоях. Похоже, NVIDIA уже признала существование бага и даже предложила временное решение — установку определённого обновления ядра, однако это лишь частичное исправление. Полное решение проблемы, вероятно, потребует официального патча, который будет выпущен либо в новом драйвере, либо в обновлении ядра Linux, а возможно, и в обоих одновременно. До тех пор владельцам этих мощнейших видеокарт придётся мириться с риском внезапных зависаний.