Ресурсный центр
Связи для долгосрочного развития
Рука об руку для общего роста

Какое решение охлаждения лучше для высокоплотных серверов? Сравнение жидкостного охлаждения серверов: Huawei CloudMatrix 384 vs NVIDIA GB200 NVL72
2025.12.29 tony.liu@walmate.com

На пути к экзафлопсным (Exascale) вычислениям ИИ сверхузел Huawei CloudMatrix 384 и кластер NVIDIA GB200 NVL72 стали двумя всемирно признанными технологическими вершинами. Они представляют не только разные возможности аппаратной интеграции, но и более глубоко раскрывают две фундаментальные философии построения суперкомпьютерных систем.

 

Один из них сравнивают с «постоянной высокой температурой», сталкиваясь с предельными проблемами отвода тепла от 384 чипов, работающих в устойчивом режиме в плотном, «недышащем» пространстве. Другой описывают как «интермиттирующую эпилепсию», которую нужно обуздать, — он имеет дело с интенсивными импульсными тепловыми потоками, возникающими при синхронной работе 72 топовых GPU. Эти две разные «причины болезни» в конечном итоге указывают на совершенно разные «рецепты» — решения для охлаждения — и ясно демонстрируют нам два подхода: противостояние детерминированного системного инжиниринга и agile-инноваций в экосистеме. Для каждой компании в цепочке поставок понимание этого противостояния является ключом к определению своей будущей роли.

 

1- Источник ключевых различий — «Диагноз определяет лечение»

Стартовые точки проектирования Huawei и NVIDIA изначально разошлись, что напрямую сформировало их разные тепловые характеристики:

 3.webp

Таблица 1: Сравнение тепловых характеристик двух технологических подходов


Различие между «постоянной высокой температурой» и «интермиттирующей эпилепсией» не случайно. Оно отражает выбор Huawei как претендента на лидерство, сфокусированного на прорыве в общей производительности системы, стремящегося любой ценой достичь предельной плотности вычислений в одном шкафу. В то время как задача NVIDIA как лидера — обеспечивать абсолютное превосходство производительности отдельного чипа, одновременно создавая экосистему, способную к эффективному взаимодействию и легкому масштабированию.

 

1- Материализация инженерной философии — два пути жидкостного охлаждения

Две различные философии проектирования наиболее ярко воплощаются в ключевых решениях по жидкостному охлаждению, формируя полный технологический стек от чипа до машинного зала.

 

a. Huawei: Практика жидкостного охлаждения в рамках детерминированного системного инжиниринга

Это философия проектирования «сверху вниз», рожденная для достижения детерминированных системных целей. Её суть заключается в глобальной, интегрированной и высоконадежной инженерной реализации системы охлаждения как ключевой части инфраструктуры, а не просто как комплектующего компонента.

 

Рис. 1: Сверхузел Huawei Ascend 384

 

· Точность на уровне чипа и надежные соединения: Для обеспечения эффективной передачи тепла от чипа к холодной пластине Huawei фокусируется на инженерной оптимизации интерфейсных материалов. Хотя открытые источники указывают на наличие у компании передовых патентов в этой области (например, наполнитель из карбида кремния с высокой сферичностью), конкретные решения, применяемые в сверхузле, не раскрываются. Можно утверждать, что их подход неизменно направлен на достижение крайне низкого контактного термического сопротивления и долгосрочной надежности для противодействия вызову «постоянной высокой температуры».

· Системная избыточность и интеллектуальное управление: Используются решения с резервированием, такие как кольцевая подача жидкости, а также собственный контроллер термоменеджмента (TMU), выступающий в роли «мозгового центра» системы. Этот контроллер обеспечивает переключение между контурами за 0 секунд и использует ИИ для прогнозирования отказов, гарантируя детерминированность и надежность цепочки охлаждения программно-определяемым способом, что является типичным проявлением их системного инженерного мышления.

· Интеграция с инфраструктурой («объединение холода и электричества»): На уровне шкафа блок распределения жидкости (CDU) физически интегрируется с блоком высоковольтного распределения электроэнергии (PDU) и управляется как единое целое. Такой дизайн «холод-электричество в одном» представляет собой конечный инженерный ответ на сверхвысокую плотность мощности в одном шкафу, упрощение развертывания и повышение энергоэффективности (снижение PUE) — материальное воплощение их детерминированного подхода от концепции до физической формы.

 

b. NVIDIA: Каркас жидкостного охлаждения для agile-инноваций в экосистеме

Это философия проектирования, ориентированная на GPU, которая расширяет возможности глобальной экосистемы через определение открытых стандартов. Её суть — предоставление проверенного «шаблона», снижающего порог входа для всей отрасли и обеспечивающего эффективное, гибкое и масштабируемое развертывание.

 

· Стандартизация на уровне чипа и референс-дизайн (VRD): NVIDIA предоставляет детальные референс-дизайны для систем охлаждения своих GPU (например, серии Blackwell), четко определяя такие интерфейсы, как физические размеры холодной пластины, рассеиваемая мощность (TDP), расход и перепад давления. Это эквивалентно предоставлению всем производителям систем охлаждения «стандартного ответа», инкапсулируя сложность в стандартные компоненты и гарантируя совместимость и базовый уровень качества ключевых элементов.

 

Рис. 2: Серверный модуль NVIDIA и микроканальная холодная пластина

 

· Коллаборация на уровне экосистемы и сертификация решений: Глубокое сотрудничество с ведущими производителями систем теплового менеджмента и инфраструктуры, такими как Vertiv и Boyd, для совместной разработки и сертификации решений жидкостного охлаждения уровня шкафа. Например, решение Vertiv Tier 2 Ready Cabinet представляет собой предварительно проверенный продукт, созданный на основе шаблонов NVIDIA, позволяющий операторам ЦОДов быстро получать готовые к работе кластеры с жидкостным охлаждением, как при закупке стандартного оборудования.

· Расширение возможностей с помощью цифровых двойников и ускорение развертывания: Платформа NVIDIA Omniverse предоставляет инструменты для создания цифровых двойников и моделирования систем жидкостного охлаждения ЦОД. Клиенты могут проектировать, проверять и оптимизировать решения по охлаждению в виртуальной среде, что значительно снижает затраты и риски физического прототипирования, обеспечивая agile-переход от проектирования к развертыванию.

 

Для более четкого понимания этих двух путей мы сравниваем их ключевые различия ниже:

 4.webp

Таблица 2: Модель Huawei vs. Модель NVIDIA: Ключевые различия


3- Исторический урок и будущее сближение

Соперничество этих двух путей не является уникальным случаем в истории технологий. По сути, это очередная классическая демонстрация инноваций через системную интеграцию против инноваций через платформенную экосистему. Huawei, как Apple эпохи Джобса, стремится к абсолютному контролю над пользовательским опытом продукта от верхнего до нижнего уровня. В то время как NVIDIA больше похожа на современный Google Android, двигая процветание всей экосистемы через установление ключевых стандартов (ОС Android / архитектура GPU).

 

Для отрасли будущий тренд заключается не в полном вытеснении одного подхода другим, а в возможном определенном сближении:

· В государственных или корпоративных проектах, нацеленных на предельную вычислительную мощность, привлекательность «детерминированного системного инжиниринга» по-прежнему не ослабевает.

· На обширном рынке коммерческих облачных вычислений «agile-инновации в экосистеме» будут продолжать расширяться благодаря своим преимуществам в скорости и стоимости.

· Искры гения могут возникать на стыке: внедрение более глубокой кастомизации и совместной оптимизации в открытые стандарты экосистемы.

 

4- Заключение


Таким образом, спор об охлаждении между Huawei и NVIDIA по своей сути является противостоянием двух ключевых конкурентных преимуществ в эпоху ИИ: одна сторона стремится достичь детерминированной предельной производительности через глубокую интеграцию системного инжиниринга; другая — стимулирует agile-инновации и быстрое распространение в отрасли через построение открытых стандартов и экосистемы. Это противостояние четко обозначило для участников цепочки поставок выбор пути: быть ли «спецназом», глубоко интегрированным для штурма конкретных системных крепостей, или стать «основной армией», вливаясь в экосистему для освоения рынков на обширных равнинах стандартов. В конечном счете, победа зависит не только от самой технологии, но и от понимания логики развития отрасли и четкого определения собственного места в будущей картине.

 

Мы будем регулярно обновлять технологии и информацию о тепловых проектах и оптимизации, и делиться этой информацией с вами для справки. Благодарим вас за интерес к компании Walmate.