Como la IA Agéntica cambia la relación entre la CPU y GPU

En la era de la IA Agéntica, el rendimiento no vendrá de un único procesador que lo haga todo. Vendrá de la arquitectura adecuada, con CPU y GPU trabajando juntas para llevar la IA de las respuestas a la acción.


Para Dan McNamara Senior Vice President and General Manager, Compute & Enterprise AI, en el área de infraestructura hay un tema que está dando de qué hablar ¿La IA agéntica va a cambiar la proporción entre CPU y GPU? ¿La solución es añadir más CPU a nuestros servidores con GPU? Suena lógico. Pero es precisamente ahí donde mucha gente se equivoca.

El cambio de la IA tipo chatbot a la IA agéntica no consiste simplemente en añadir unas cuantas CPU más junto al mismo diseño de rack con gran cantidad de GPU. Es algo más amplio que eso. Se trata de un cambio estructural en la arquitectura de los centros de datos.

La IA agentiva está impulsando la demanda de racks completamente nuevos de servidores con CPU que se sitúan junto a la infraestructura de GPU y se encargan de impulsar el trabajo de todos estos agentes.

Para los responsables de TI de las empresas, hay una lección que aprender de todo esto: la IA agéntica reescribe la ecuación de la infraestructura de IA.

En AMD, están siguiendo muy de cerca este cambio. Aunque anteriormente se había previsto un crecimiento anual del 18 % en el mercado de las CPU para servidores, el aumento estructural de los requisitos de computación impulsado por los agentes cambia las cuentas.

Ahora se espera que el mercado total potencial de las CPU para servidores crezca a un ritmo superior al 35 % anual, alcanzando más de 120 000 millones de dólares en 2030.

Esto llegará de la mano de la La primera ola: la IA de los chatbots se basaba principalmente en respuestas de modelos, esta ola de  IA generativa se construyó en torno a un patrón bastante sencillo. Un usuario formulaba una pregunta; la aplicación enviaba una solicitud a un modelo; el modelo generaba una respuesta; y la aplicación la devolvía.

Esa arquitectura dio lugar, de forma natural, a diseños centrados en las GPU. En esas implementaciones, una CPU actuaba como nodo principal de un servidor con entre cuatro y ocho GPU. La CPU del nodo principal se encargaba de la programación, las operaciones de E/S y la gestión del sistema, mientras que las GPU realizaban los cálculos más complejos.

La IA agentiva no es solo «chat más herramientas»

En los inicios de la era de la IA agéntica, la carga de trabajo cambia por completo. En lugar de responder a una sola solicitud, un agente desglosa un objetivo en pasos, decide qué hacer a continuación, recurre a múltiples modelos, consulta bases de datos, se conecta con API, ejecuta aplicaciones empresariales, comprueba permisos, recupera memoria, valida los resultados y, a continuación, vuelve a repetir el proceso. Se trata de un perfil de infraestructura muy diferente al de la IA de los chatbots, que se limita a recibir una solicitud y dar una respuesta.

Las GPU siguen siendo fundamentales para la ejecución de los modelos, pero la carga de trabajo en producción ahora requiere un uso intensivo de la CPU, las cuales se encargan de:

  • Orquestación: gestionan el motor que desglosa las tareas complejas.
  • Ejecución de agentes y llamadas a herramientas: Activan las APIs y software empresarial heredado.
  • Políticas y seguridad: Realiza comprobaciones en el mundo real de cada acción autónoma.

La respuesta al cambio de CPU a GPU no consiste simplemente en «añadir más CPU»

En lugar de la proporción anterior de 1:4-8 entre CPU y GPU en la IA de los chatbots, ahora se ve cómo la IA agentiva avanza hacia una proporción de 1:1 y, en algunos casos, la proporción es mayor por el lado de la CPU.

La clave no se consigue simplemente añadiendo más CPU a un conjunto de GPU. Se consigue añadiendo una capa de computación de CPU de nuevo diseño.

Para los responsables de TI de las empresas, aquí es donde debe evolucionar su planificación.

El sistema de IA preferido para los próximos años no será una única «caja de IA». Se parecerá más a un sistema distribuido. Dónde se necesitarán de racks de GPU para la computación de modelos densos, redes rápidas y una pila de software capaz de mantenerlo todo observable, seguro y eficiente. Y dispondrán de racks de CPU con agentes para la orquestación, el procesamiento de datos y la ejecución de herramientas.

En este punto, una arquitectura equilibrada será más importante que nunca. Si el nivel de CPU es insuficiente, las GPU se quedan a la espera. Si la red se deja para el final, los agentes se atascan. Si la ruta de datos es desordenada, la latencia aumenta. Si la capa de orquestación no está diseñada para la concurrencia, el coste y la complejidad se disparan.

El papel de AMD

Los procesadores AMD EPYC ofrecen a los clientes una gama de opciones de CPU optimizadas para diferentes etapas del proceso de IA, desde el liderazgo en alta frecuencia para tareas sensibles a la latencia hasta el liderazgo en densidad de núcleos para el rendimiento en escalabilidad horizontal.

La compañía sigue ampliando el liderazgo con su hoja de ruta actual, que incluye los productos «Venice», que ampliarán aún más la gama de CPU optimizadas para IA. AMD proporciona los chips especializados para equipar cada rack de su centro de datos (y cada instancia de computación de su entorno en la nube) con exactamente lo que necesita.

Conclusión práctica para los responsables de TI

Su  petición a los responsables de la toma de decisiones de TI en las empresas es que a medida que la IA agéntica pasa de la fase piloto a la de producción, no dimensionen la infraestructura como si solo estuvieran añadiendo un chatbot a su empresa.

LA recomendación es que hay que dimensionarla como si estuvieran incorporando una nueva clase de mano de obra digital, una que necesita planificar, actuar, comprobar, recuperar, invocar herramientas y ejecutar flujos de trabajo durante todo el día.

Esto implica planificar una mayor capacidad de CPU de lo que sugerían las hipótesis anteriores sobre la IA. Implica mirar más allá del servidor con GPU y pensar en racks, estructuras de red, software y equilibrio operativo.

En la era de la IA agentiva, el rendimiento no vendrá de un único procesador que lo haga todo. Vendrá de la arquitectura adecuada, con CPU y GPU trabajando juntas para llevar la IA de las respuestas a la acción.

Publicaciones relacionadas

Botón volver arriba