La alimentación y enfriamiento de la IA y la computación acelerada en la sala de datos

La creciente demanda de potencia y capacidad de enfriamiento para las cargas de trabajo de la IA requiere de nuevas soluciones de infraestructura, como el enfriamiento líquido directo al chip y los intercambiadores de calor de puerta trasera.

Redacción de ITSitio febrero 29, 2024

5 minutes read

La inteligencia artificial (IA) ha llegado para quedarse. “Todas las industrias se convertirán en industrias tecnológicas”, afirma Jensen Huang, fundador y director ejecutivo de NVIDIA. Los casos de uso para la IA son prácticamente ilimitados, desde los grandes avances en medicina hasta la prevención de fraudes con gran precisión. La IA está transformando nuestras vidas al igual que está transformando cada industria. Además, ha comenzado a transformar radicalmente la infraestructura del centro de datos.

Las cargas de trabajo de la IA están provocando cambios importantes en la manera en la cual alimentamos y enfriamos los datos procesados como parte de la computación de alto rendimiento (HPC, por sus siglas en inglés). Un rack de TI típico usado para operar cargas de trabajo de 5-10 kilovatios (kW) y los racks que operan cargas por encima de los 20 kW se consideraban de alta densidad, algo poco común fuera de aplicaciones muy específicas y de poco alcance. La IA está siendo agilizada con las GPU para satisfacer las necesidades de computación de los modelos de IA y estos chips de IA pueden requerir hasta cinco veces más alimentación y capacidad de enfriamiento en el mismo espacio que un servidor tradicional. Mark Zuckerberg anunció que para finales de 2024, Meta invertiría miles de millones de dólares para implementar 350.000 GPU NVIDIA H100. Las densidades de los racks de 40 kW por rack se encuentran en el escalón más bajo de lo que se necesita para facilitar las implementaciones de la IA, con densidades de rack por encima de los 100 kW por rack cada vez más comunes y a gran escala en el futuro cercano.

Esto exigirá aumentos considerables de capacidad en todo el tren de potencia desde la red eléctrica hasta los chips en cada rack. Introducir tecnologías de enfriamiento líquido en el espacio libre del centro de datos y eventualmente en las salas de servidores será un requisito para la mayoría de implementaciones, ya que los métodos de enfriamiento tradicionales no serán capaces de manejar el calor generado por las GPU que operan los cálculos de IA.

La transición a la alta densidad

La transición a la computación acelerada no ocurrirá de la noche a la mañana. Los diseñadores de salas de servidores y centros de datos deberán buscar maneras de preparar la infraestructura de potencia y enfriamiento para el futuro y tomar en cuenta el crecimiento futuro de sus cargas de trabajo. Obtener la potencia necesaria para cada rack exige actualizaciones que van desde la red eléctrica hasta el rack. En el caso del espacio libre, esto probablemente se traduzca en rPDU de alta densidad y busway de alto amperaje. Para expulsar la enorme cantidad de calor generado por el hardware que opera las cargas de trabajo de la IA, dos tecnologías de enfriamiento líquido son las principales opciones emergentes:

El enfriamiento líquido directo al chip: las placas frías se colocan sobre los componentes generadores de calor (por lo general chips como CPU y GPU) para extraer el calor. El fluido monofásico y bifásico bombeado extrae el calor de la placa fría para enviarla fuera del centro de datos por medio del intercambiar el calor, pero no los fluidos con el chip. Esto puede eliminar un 70-75 % del calor generado por el equipo en el rack y el 25-30 % restante deberá ser eliminado por los sistemas de aire acondicionado.
Los intercambiadores de calor de puerta trasera: los intercambiadores de calor pasivos y activos reemplazan la puerta trasera del rack de TI con los serpentines intercambiadores de calor, a través de los cuales el fluido absorbe el calor producido en el rack. Por lo general, estos sistemas se combinan con otros sistemas de enfriamiento, ya sea como estrategia para mantener la neutralidad de la sala o como un diseño de transición hacia el enfriamiento líquido.

Aunque el enfriamiento líquido directo al chip ofrece una capacidad de enfriamiento considerablemente mayor que el aire, cabe destacar que sigue existiendo un calor excesivo que las placas frías no pueden capturar. Este calor será expulsado en el centro de datos a menos que se contenga y elimine a través de otros medios como los intercambiadores de calor de puerta trasera o el aire de enfriamiento de la sala.

Los kits de inicio de IA para actualizaciones y construcciones nuevas

La potencia y el enfriamiento se están convirtiendo en parte integral de la solución de TI en la sala de datos, con lo cual se difuminan las diferencias entre los equipos de TI y de instalaciones. Además, esto agrega un alto grado de complejidad a la hora de diseñar, implementar y operar. Las asociaciones y la experiencia integral son los principales requisitos para una transición fluida a mayores densidades.

Para simplificar el cambio a la alta densidad, Vertiv ha presentado una amplia gama de diseños optimizados, los cuales incluyen tecnología de potencia y enfriamiento capaz de soportar cargas de trabajo de hasta 100 kW por rack en varias configuraciones de implementación.

Estos diseños ofrecen muchas posibilidades para que los integradores de sistemas, los proveedores de servicios de coubicaciones, los proveedores de servicios en la nube o los usuarios empresariales logren hoy el centro de datos del futuro. Cada instalación específica puede tener matices en lo relacionado con la densidad y el número de racks dictados por la selección de equipos de TI. Esta colección de diseños ofrece una manera intuitiva de delimitarse a un diseño base y personalizarlo según las necesidades de implementación.

A la hora de modernizar o reutilizar los entornos existentes para la IA, los diseños optimizados permiten minimizar las interrupciones de las cargas de trabajo existentes por medio de aprovechar la infraestructura de enfriamiento disponible y la eliminación del calor cuando sea posible. Por ejemplo, se puede integrar el enfriamiento líquido directo al chip con un intercambiador de calor de puerta trasera para mantener una solución de enfriamiento neutral. En este caso, el intercambiador de calor de puerta trasera evita que el calor excesivo escape hasta la sala. En el caso de una instalación enfriada por aire que busca agregar equipos de enfriamiento líquido sin modificar el sitio, cuentan con diseños de líquido a aire. Esta misma estrategia puede implementarse en un solo rack, en una fila o a escala en una implementación de HPC grande. En el caso de diseños de racks múltiples, se ve incluido rPDU de alta densidad y busway de alto amperaje para distribuir la alimentación a cada rack.

Estas alternativas son compatibles con una gran variedad de opciones de eliminación del calor que pueden combinarse con el enfriamiento líquido. Esto permite una transición limpia y rentable hacia el enfriamiento líquido de alta densidad sin necesidad de interrumpir otras cargas de trabajo en la sala de datos.

Aunque muchas instalaciones no se encuentran diseñadas para sistemas de alta densidad, Vertiv cuenta con amplia experiencia al ayudar a los clientes a desarrollar planes de implementación para una transición fluida a la alta densidad para la IA y la HPC.