Enfriamiento líquido: una estrategia fresca para la IA
Jason Zeiler, experto en refrigeración en HPE, explica por qué el enfriamiento líquido es ideal para enfriar la densidad en los centros de datos de IA del futuro
La IA es una de las cargas de trabajo con mayores demandas de computación de nuestros tiempos. Por eso, no sorprende que el consumo energético y el costo de energía asociado de los sistemas de IA se elevará.
A principios de este año, la Agencia Internacional de Energía (IEA, por sus siglas en inglés) informó que los centros de datos consumieron, a nivel global, el 2% de toda la electricidad en 2022, y la IEA predice que ese consumo podría aumentar a más del doble en 2026.1
Mientras que la eficiencia ha mejorado en los aceleradores de próxima generación, el consumo energético continuará intensificándose con la adopción de la IA.
Los centros de datos deberán ejecutar cargas de trabajo de IA de manera más efectiva, y las instalaciones actuales no están equipadas para atender las demandas de enfriamiento de este creciente poder de procesamiento. Aquí es donde entra el enfriamiento líquido.
Mantenerse fresco en la era de la IA
En comparación con el enfriamiento por aire tradicional que utiliza ventiladores, con el enfriamiento líquido y, específicamente, con el enfriamiento líquido directo (DLC, Direct Liquid Cooling en inglés), el refrigerante o cooler se bombea directamente a un servidor para absorber el calor emitido por los procesadores y transferirlo a un sistema de intercambio de calor fuera del centro de datos.
En HPE contamos con décadas de experiencia innovando y ofreciendo sistemas de enfriamiento líquido en todo el mundo para enfriar de manera eficiente los sistemas de gran escala que ejecutan cargas de trabajo de alto rendimiento (HPC, por sus siglas en inglés).
La infraestructura de IA del futuro con los aceleradores más recientes requerirá esta misma innovación en enfriamiento líquido para atender las inquietudes sobre la eficiencia energética, la sostenibilidad e incluso la resiliencia de los sistemas, que es central para mantener operando las cargas de trabajo de IA.
Veamos las cuatro principales razones por las cuales el enfriamiento líquido es la solución ideal para los centros de datos de IA.
Algunos chips simplemente no toleran el calor
Nuestros amigos de la industria han hecho un trabajo asombroso al diseñar aceleradores de próxima generación que proporcionan un rendimiento considerablemente más alto para la IA con mayor eficiencia.
Los nuevos chips están diseñados para ofrecer aún más rendimiento en un espacio reducido, pero eso también significa que será más difícil enfriar todos esos componentes críticos por dentro.
Si no podemos enfriar los chips lo suficientemente rápido, los centros de datos podrían enfrentar problemas de sobrecalentamiento que causarían fallas en el sistema y, en última instancia, tiempos de inactividad imprevistos en las tareas de IA en ejecución.
El enfriamiento líquido puede enfriar esos chips de forma más rápida y eficiente, ya que el agua contiene el triple de capacidad de calor que el enfriamiento por aire2, lo que le permite absorber más calor emitido por los aceleradores y otros componentes como las CPU, la memoria y los switches de red.
Obtener el valor de la IA con menos impacto ambiental
Enfriar de manera eficiente los aceleradores de próxima generación para garantizar la fiabilidad de los sistemas es una prioridad clave, pero es igual de importante hacerlo de manera más sostenible en beneficio de la madre naturaleza.
El enfriamiento líquido cuenta con ventajas importantes de sostenibilidad y costo para los aceleradores de próxima generación. Tomemos como ejemplo un centro de datos HPC con 10,000 servidores.
Si los 10,000 servidores se enfrían por aire, el centro de datos emitirá más de 8,700 toneladas de CO2, en comparación con los servidores enfriados por líquido, que emiten alrededor de 1,200 toneladas de CO2.3 Esto representa una reducción del 87% en el consumo de energía y evita que casi 17.8 millones de libras (más de 8 millones de kg) de CO2 se liberen anualmente a la atmósfera.3
Sin duda, esta enorme reducción de consumo energético viene acompañada de un gran ahorro de costos. Cualquier director financiero que supervise los gastos energéticos lo apreciará.
Con un centro de datos de 10,000 servidores enfriados por líquido, el centro solo pagará USD $45.99 por servidor anualmente, en comparación con el costo anual de USD $254.70 por cada servidor enfriado por aire. Esto ahorra casi USD $2.1 millones al año en costos operativos.
Reutilizar la energía de los sistemas de IA
Y las ventajas del enfriamiento líquido no acaban aquí, pues después de capturar el calor, los sistemas con enfriamiento líquido lo transfieren a un sistema de intercambio fuera del centro de datos, donde el agua caliente puede reutilizarse como fuente de energía para alimentar otros edificios o instalaciones.
El Laboratorio Nacional de Energía Renovable (NREL, por sus siglas en inglés) del Departamento de Energía de los Estados Unidos lo ha estado haciendo con éxito durante años. El laboratorio, uno de los centros de energía renovable líderes del mundo, reutilizó el 90% del agua caliente capturada de su sistema Peregrine, una supercomputadora de enfriamiento líquido HPE Cray, como la principal fuente de calor para las oficinas y el espacio de laboratorio de su planta de integración de sistemas de energía (ESIF, por sus siglas en inglés).
Nuestros amigos de QScale, en Quebec, están planeando hacer lo mismo, pero con el objetivo de ayudar a incrementar la producción agrícola y abordar la escasez de alimentos. Con el enfriamiento líquido, QScale espera proporcionar electricidad a los invernaderos locales, que tienen casi el tamaño de unos 100 campos de futbol americano, para producir el equivalente a 80,000 toneladas de tomates al año.
De manera similar, nuestro socio noruego Green Mountain planea ofrecer agua caliente para apoyar los esfuerzos de acuicultura en Hima, el criadero de truchas en tierra más grande del mundo, el cual está basado en Sistemas de Recirculación Acuícola (RAS, por sus siglas en inglés), una tecnología que recircula el agua de montaña limpia y pura. Hima pretende producir cerca de 8,000 toneladas de truchas Hima® premium, el equivalente a 22,000,000 cenas al año.
Más rendimiento de IA, sistemas más pequeños
A medida que los centros de datos planean y se preparan para adoptar infraestructuras de IA en el futuro, la densidad será un factor clave para hacer espacio para las soluciones de IA avanzadas.
Debido a que el enfriamiento líquido no necesita ventiladores ni todo el equipo necesario para las soluciones de enfriamiento por aire, los centros de datos pueden colocar menos racks de servidores de manera más compacta para maximizar el espacio o expandirse conforme sea necesario.
De acuerdo con el ejemplo del centro de datos con 10,000 servidores, una instalación reduciría el 77.5% del espacio necesario si utilizara servidores con enfriamiento líquido3.
Además, en un período de cinco años, las soluciones de enfriamiento líquido consumen un 14.9% menos de energía para el chasis, lo que brinda un 20.7% de más rendimiento por kW que las soluciones con enfriamiento por aire.
La IA requiere experiencia y confianza
Al tratarse de la IA, conviene confiar en los expertos. En HPE contamos con más de 50 años de experiencia y más de 300 patentes de enfriamiento líquido.
Seguimos desarrollando sistemas de enfriamiento líquido de gran tamaño para nuestros clientes que operan durante varios años consecutivos sin problemas. Nuestras soluciones de enfriamiento líquido también han demostrado contribuir a una computación más sostenible.
Tan solo en los últimos dos años, entregamos cuatro de los diez sistemas más rápidos del mundo, los cuales todos son supercomputadoras HPE Cray EX con enfriamiento líquido.5 De estas, Frontier, la supercomputadora más rápida del mundo desarrollada para el Laboratorio Nacional de Oak Ridge del Departamento de Energía de los Estados Unidos, logró una hazaña de ingeniería al romper la barrera de la velocidad de exaescala, operando decenas de miles de aceleradores sin presentar una sola falla. Incluso a esta escala monumental de rendimiento, Frontier recibió el título de la supercomputadora más energéticamente eficiente del mundo.
Por lo tanto, sabemos una que otra cosa sobre lo que se necesita para desarrollar y operar con eficiencia sistemas con grandes demandas de computación.
Hemos estado preparados desde hace tiempo para la IA y estamos listos para seguir apoyando a nuestros clientes en su camino hacia la IA con las soluciones de enfriamiento más sofisticadas del mundo.