жидкостное охлаждение серверов, Huawei CloudMatrix 384, NVIDIA GB200 NVL72, Какое решение охлаждения лучше для высокоплотных серверов?, Как работает экосистемный подход NVIDIA к жидкостному охлаждению по сравнению с Huawei?

Ресурсный центр
Связи для долгосрочного развития
Рука об руку для общего роста

Какое решение охлаждения лучше для высокоплотных серверов? Сравнение жидкостного охлаждения серверов: Huawei CloudMatrix 384 vs NVIDIA GB200 NVL72

2025.12.29 tony.liu@walmate.com

На пути к экзафлопсным (Exascale) вычислениям ИИ сверхузел Huawei CloudMatrix 384 и кластер NVIDIA GB200 NVL72 стали двумя всемирно признанными технологическими вершинами. Они представляют не только разные возможности аппаратной интеграции, но и более глубоко раскрывают две фундаментальные философии построения суперкомпьютерных систем.

Один из них сравнивают с «постоянной высокой температурой», сталкиваясь с предельными проблемами отвода тепла от 384 чипов, работающих в устойчивом режиме в плотном, «недышащем» пространстве. Другой описывают как «интермиттирующую эпилепсию», которую нужно обуздать, — он имеет дело с интенсивными импульсными тепловыми потоками, возникающими при синхронной работе 72 топовых GPU. Эти две разные «причины болезни» в конечном итоге указывают на совершенно разные «рецепты» — решения для охлаждения — и ясно демонстрируют нам два подхода: противостояние детерминированного системного инжиниринга и agile-инноваций в экосистеме. Для каждой компании в цепочке поставок понимание этого противостояния является ключом к определению своей будущей роли.

1- Источник ключевых различий — «Диагноз определяет лечение»

Стартовые точки проектирования Huawei и NVIDIA изначально разошлись, что напрямую сформировало их разные тепловые характеристики:

Таблица 1: Сравнение тепловых характеристик двух технологических подходов

Различие между «постоянной высокой температурой» и «интермиттирующей эпилепсией» не случайно. Оно отражает выбор Huawei как претендента на лидерство, сфокусированного на прорыве в общей производительности системы, стремящегося любой ценой достичь предельной плотности вычислений в одном шкафу. В то время как задача NVIDIA как лидера — обеспечивать абсолютное превосходство производительности отдельного чипа, одновременно создавая экосистему, способную к эффективному взаимодействию и легкому масштабированию.

1- Материализация инженерной философии — два пути жидкостного охлаждения

Две различные философии проектирования наиболее ярко воплощаются в ключевых решениях по жидкостному охлаждению, формируя полный технологический стек от чипа до машинного зала.

a. Huawei: Практика жидкостного охлаждения в рамках детерминированного системного инжиниринга

Это философия проектирования «сверху вниз», рожденная для достижения детерминированных системных целей. Её суть заключается в глобальной, интегрированной и высоконадежной инженерной реализации системы охлаждения как ключевой части инфраструктуры, а не просто как комплектующего компонента.

Рис. 1: Сверхузел Huawei Ascend 384

· Точность на уровне чипа и надежные соединения: Для обеспечения эффективной передачи тепла от чипа к холодной пластине Huawei фокусируется на инженерной оптимизации интерфейсных материалов. Хотя открытые источники указывают на наличие у компании передовых патентов в этой области (например, наполнитель из карбида кремния с высокой сферичностью), конкретные решения, применяемые в сверхузле, не раскрываются. Можно утверждать, что их подход неизменно направлен на достижение крайне низкого контактного термического сопротивления и долгосрочной надежности для противодействия вызову «постоянной высокой температуры».

· Системная избыточность и интеллектуальное управление: Используются решения с резервированием, такие как кольцевая подача жидкости, а также собственный контроллер термоменеджмента (TMU), выступающий в роли «мозгового центра» системы. Этот контроллер обеспечивает переключение между контурами за 0 секунд и использует ИИ для прогнозирования отказов, гарантируя детерминированность и надежность цепочки охлаждения программно-определяемым способом, что является типичным проявлением их системного инженерного мышления.

· Интеграция с инфраструктурой («объединение холода и электричества»): На уровне шкафа блок распределения жидкости (CDU) физически интегрируется с блоком высоковольтного распределения электроэнергии (PDU) и управляется как единое целое. Такой дизайн «холод-электричество в одном» представляет собой конечный инженерный ответ на сверхвысокую плотность мощности в одном шкафу, упрощение развертывания и повышение энергоэффективности (снижение PUE) — материальное воплощение их детерминированного подхода от концепции до физической формы.

b. NVIDIA: Каркас жидкостного охлаждения для agile-инноваций в экосистеме

Это философия проектирования, ориентированная на GPU, которая расширяет возможности глобальной экосистемы через определение открытых стандартов. Её суть — предоставление проверенного «шаблона», снижающего порог входа для всей отрасли и обеспечивающего эффективное, гибкое и масштабируемое развертывание.

· Стандартизация на уровне чипа и референс-дизайн (VRD): NVIDIA предоставляет детальные референс-дизайны для систем охлаждения своих GPU (например, серии Blackwell), четко определяя такие интерфейсы, как физические размеры холодной пластины, рассеиваемая мощность (TDP), расход и перепад давления. Это эквивалентно предоставлению всем производителям систем охлаждения «стандартного ответа», инкапсулируя сложность в стандартные компоненты и гарантируя совместимость и базовый уровень качества ключевых элементов.

Рис. 2: Серверный модуль NVIDIA и микроканальная холодная пластина

· Коллаборация на уровне экосистемы и сертификация решений: Глубокое сотрудничество с ведущими производителями систем теплового менеджмента и инфраструктуры, такими как Vertiv и Boyd, для совместной разработки и сертификации решений жидкостного охлаждения уровня шкафа. Например, решение Vertiv Tier 2 Ready Cabinet представляет собой предварительно проверенный продукт, созданный на основе шаблонов NVIDIA, позволяющий операторам ЦОДов быстро получать готовые к работе кластеры с жидкостным охлаждением, как при закупке стандартного оборудования.

· Расширение возможностей с помощью цифровых двойников и ускорение развертывания: Платформа NVIDIA Omniverse предоставляет инструменты для создания цифровых двойников и моделирования систем жидкостного охлаждения ЦОД. Клиенты могут проектировать, проверять и оптимизировать решения по охлаждению в виртуальной среде, что значительно снижает затраты и риски физического прототипирования, обеспечивая agile-переход от проектирования к развертыванию.

Для более четкого понимания этих двух путей мы сравниваем их ключевые различия ниже:

Таблица 2: Модель Huawei vs. Модель NVIDIA: Ключевые различия

3- Исторический урок и будущее сближение

Соперничество этих двух путей не является уникальным случаем в истории технологий. По сути, это очередная классическая демонстрация инноваций через системную интеграцию против инноваций через платформенную экосистему. Huawei, как Apple эпохи Джобса, стремится к абсолютному контролю над пользовательским опытом продукта от верхнего до нижнего уровня. В то время как NVIDIA больше похожа на современный Google Android, двигая процветание всей экосистемы через установление ключевых стандартов (ОС Android / архитектура GPU).

Для отрасли будущий тренд заключается не в полном вытеснении одного подхода другим, а в возможном определенном сближении:

· В государственных или корпоративных проектах, нацеленных на предельную вычислительную мощность, привлекательность «детерминированного системного инжиниринга» по-прежнему не ослабевает.

· На обширном рынке коммерческих облачных вычислений «agile-инновации в экосистеме» будут продолжать расширяться благодаря своим преимуществам в скорости и стоимости.

· Искры гения могут возникать на стыке: внедрение более глубокой кастомизации и совместной оптимизации в открытые стандарты экосистемы.

4- Заключение

Таким образом, спор об охлаждении между Huawei и NVIDIA по своей сути является противостоянием двух ключевых конкурентных преимуществ в эпоху ИИ: одна сторона стремится достичь детерминированной предельной производительности через глубокую интеграцию системного инжиниринга; другая — стимулирует agile-инновации и быстрое распространение в отрасли через построение открытых стандартов и экосистемы. Это противостояние четко обозначило для участников цепочки поставок выбор пути: быть ли «спецназом», глубоко интегрированным для штурма конкретных системных крепостей, или стать «основной армией», вливаясь в экосистему для освоения рынков на обширных равнинах стандартов. В конечном счете, победа зависит не только от самой технологии, но и от понимания логики развития отрасли и четкого определения собственного места в будущей картине.

Мы будем регулярно обновлять технологии и информацию о тепловых проектах и оптимизации, и делиться этой информацией с вами для справки. Благодарим вас за интерес к компании Walmate.

Рекомендации

2025.12.29

Какие сложности в тепловом менеджменте для ячеек большой ёмкости? Решения по интеграции систем охлаждения в нижний корпус

2025.12.08

Почему жидкостное охлаждение необходимо для NVIDIA GB200? Анализ перехода от воздушного охлаждения к обязательной системе

2025.12.01

От сервера к стойке: как GB200 создает архитектуру уровня ЦОД

2025.11.24

测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试