Во время саммита Open Compute Project (OCP) 2024 Meta, один из главных членов проекта OCP, продемонстрировала свои системы NVIDIA “Blackwell” GB200 для своих огромных дата-центров.
Ранее мы освещали серверный шкаф Microsoft Azure с GPU GB200, который занимал одну треть пространства шкафа для вычислений и две трети для охлаждения.
Несколько дней спустя Google представила свою более компактную систему GB200, а сегодня Meta демонстрирует свою систему GB200 – самую маленькую из всех.
Чтобы обучить плотную трансформерную модель большого языка с 405 млрд параметров и контекстным окном до 128 тыс. токенов, такую как Llama 3.1 405B, Meta необходимо перепроектировать инфраструктуру своих дата-центров для запуска распределенной задачи обучения на двух кластерах по 24 000 GPU.
Это 48 000 GPU, используемых для обучения одной модели ИИ.
Система, получившая название “Catalina”, построена на платформе NVIDIA Blackwell, акцентируя внимание на модульности и адаптивности, одновременно интегрируя новейший суперчип NVIDIA GB200 Grace Blackwell.
Чтобы справиться с растущими требованиями к питанию GPU, Catalina представляет Orv3 – мощный шкаф, способный обеспечивать мощность до 140 кВт.
Комплексная система жидкостного охлаждения включает в себя полку питания, поддерживающую различные компоненты, в том числе вычислительный лоток, лоток коммутатора, Orv3 HPR, коммутатор сети Wedge 400 с пропускной способностью коммутации 12,8 Тбит/с, управляющий коммутатор, резервный источник питания и контроллер управления шкафом.
Интересно, что Meta также обновила свою систему “Grand Teton” для внутреннего использования, например, для моделей глубокого обучения рекомендаций (DLRM) и понимания контента с помощью AMD Instinct MI300X.
Они используются для вывода внутренних моделей, а MI300X, похоже, обеспечивает лучшую производительность за доллар для вывода.
По словам Meta, вычислительная нагрузка, обусловленная ИИ, будет продолжать расти в геометрической прогрессии, поэтому требуется больше GPU NVIDIA и AMD, и мы с нетерпением ждем, что компания построит.