В мире искусственного интеллекта и высокопроизводительных вычислений NVIDIA продолжает удерживать лидерство, представляя свои ультимативные серверные стойки GB200 NVL72 на базе чипов «Blackwell Ultra». Эта система, которую можно без преувеличения назвать вычислительным чудовищем, способна достичь эксафлопсной производительности в операциях FP4, значительно превосходя предыдущие платформы HGX по эффективности. Однако за эту беспрецедентную мощь приходится платить — и не только за сами чипы.
Как показывают оценки инвестиционного банка Morgan Stanley, стоимость системы охлаждения для одной топовой стойки, получившей название Oberon, достигает поразительных $50 000. Это критическая инженерная статья расходов, обусловленная экстремальным тепловыделением.
Энергия, превращающаяся в тепло
Дело в том, что в конфигурации GB200 NVL72 собраны 72 графических процессора (GPU) Grace Blackwell Ultra Superchips, каждый из которых имеет заявленное тепловыделение (TDP) в 1400 Вт. Если просто сложить эти цифры, получается более 100 кВт тепла только от графических чипов! Добавьте к этому 36 центральных процессоров (CPU) «Grace», питающих систему, и вы получите суммарную тепловую нагрузку, которая на пике превышает 100 кВт на стойку.
Очевидно, что традиционные, основанные на воздухе методы охлаждения, которые мы привыкли видеть в обычных ПК, в таких условиях совершенно бессильны. Система NVIDIA требует полного жидкостного охлаждения, чтобы не дать мощнейшим компонентам превратиться в расплавленный металл.
Анатомия 50-тысячного кулера
Аналитики Morgan Stanley подробно смоделировали структуру расходов на охлаждение. В стойке Oberon находятся 18 вычислительных лотков (compute trays), каждый из которых потребляет около 6,6 кВт, и девять лотков для коммутаторов.
- Самыми дорогими компонентами в списке (Bill of Materials) являются высокопроизводительные холодные пластины (cold plates) — те самые медные или алюминиевые блоки, которые напрямую контактируют с горячими чипами и отводят тепло в жидкость.
- По расчетам, охлаждение 18 вычислительных лотков обходится примерно в $40 680 (по $2260 на лоток).
- К этому добавляется охлаждение девяти лотков с коммутаторами, которое стоит около $9180 (по $1020 за лоток).
Суммарно это и составляет те самые $50 000, которые NVIDIA тратит только на поддержание рабочей температуры одной флагманской стойки.
Завтра будет еще жарче
Похоже, это только начало «гонки тепла». Аналитики прогнозируют, что следующая, еще более мощная конфигурация «Vera Rubin» NVL144, потребует еще более продвинутых и дорогих систем терморегуляции. Ожидается, что с увеличением мощности чипов и потребления энергии интерконнектами, стоимость охлаждения для этой будущей системы возрастет примерно на 17% и достигнет впечатляющих $55 710.
Это отражает неизбежный закон физики в мире AI: с ростом вычислительной плотности и тепловыделения экспоненциально увеличиваются как расходы, так и инженерная сложность удержания систем в рабочем температурном диапазоне. Битва за вычислительную мощь все больше становится битвой за эффективное теплоотведение.
