
AMD lanza ROCm 6.4 con avances en rendimiento y gestión para cargas de trabajo modernas de IA
Se trata de su última versión del stack de software abierto para cómputo acelerado, la cual destaca avances significativos en el soporte a cargas de trabajo de inteligencia artificial (IA) y computación de alto rendimiento (HPC).
AMD anunció el lanzamiento de ROCm 6.4, su última versión del stack de software abierto para cómputo acelerado, destacando avances significativos en el soporte a cargas de trabajo de inteligencia artificial (IA) y computación de alto rendimiento (HPC).
Esta actualización introduce funciones clave que simplifican la implementación de modelos, optimizan el rendimiento en GPUs AMD Instinct y mejoran la confiabilidad del sistema, consolidando a ROCm como una solución integral para investigadores, desarrolladores y equipos de infraestructura.
Con innovaciones como contenedores plug-and-play, mejoras sustanciales en PyTorch, y una arquitectura modular de controladores, ROCm 6.4 está diseñado para afrontar los desafíos actuales del desarrollo de IA, reduciendo tiempos de entrenamiento, facilitando la escalabilidad y maximizando la eficiencia operativa.
Cinco innovaciones clave de ROCm 6.4:
1. Contenedores ROCm listos para entrenamiento e inferencia
La nueva versión introduce contenedores preoptimizados que eliminan las complicaciones de configuración en entornos de IA. Entre ellos se destacan:
-
vLLM: diseñado para inferencia LLM de baja latencia con compatibilidad inmediata para modelos como Gemma 3, Llama, Mistral y Cohere.
-
SGLang: optimizado para DeepSeek R1, con soporte para FP8 y atención paralela multi-cabezal.
-
PyTorch: compilaciones optimizadas para entrenamiento fluido en GPU Instinct MI300X, compatible con Llama 3.1, Llama 2 y FLUX.1-dev.
-
Megatron-LM: una bifurcación de alto rendimiento para el entrenamiento de LLMs de gran escala, incluyendo DeepSeek-V2-Lite.
Estos contenedores permiten a los equipos acelerar la experimentación, acceder a modelos de última generación y garantizar despliegues consistentes desde el desarrollo hasta la producción.
2. Actualización de PyTorch con nuevas atenciones optimizadas
ROCm 6.4 incorpora importantes mejoras de rendimiento en el framework PyTorch, que incluyen:
-
Flex Attention: reduce significativamente el tiempo de entrenamiento y el uso de memoria.
-
TopK: operaciones hasta 3 veces más rápidas, mejorando la velocidad de inferencia.
-
Scaled Dot-Product Attention (SDPA): para una inferencia fluida y de largo contexto.
Esto permite realizar más experimentos en menos tiempo y mejorar el retorno de la inversión en infraestructura.
3. Inferencia de próxima generación con vLLM y SGLang
La nueva versión optimiza la inferencia para modelos como Grok, Gemma 3 y Llama 3.1 (8B, 70B, 405B), logrando un rendimiento récord en GPUs AMD Instinct MI300X. Las actualizaciones frecuentes de estos contenedores aseguran un entorno confiable y actualizado para producción y desarrollo.
4. Gestión optimizada de clústeres con AMD GPU Operator
ROCm 6.4 automatiza la programación de GPU, actualizaciones de controladores y monitoreo en tiempo real mediante AMD GPU Operator, facilitando la gestión de clústeres Kubernetes. Las nuevas funciones incluyen:
-
Cordón, drenaje y reinicio automatizados
-
Soporte extendido para Red Hat OpenShift 4.16–4.17 y Ubuntu 22.04/24.04
-
Exportador de métricas basado en Prometheus
Esto mejora el uptime, reduce riesgos operativos y fortalece la resiliencia de la infraestructura de IA.
5. Arquitectura de controlador modular para mayor flexibilidad
ROCm 6.4 presenta un nuevo controlador de GPU modular que separa el kernel del espacio de usuario, permitiendo:
-
Actualizaciones independientes de controladores y bibliotecas
-
Ventana de compatibilidad extendida a 12 meses
-
Implementaciones más flexibles en servidores, contenedores y soluciones ISV
Esta modularidad simplifica el mantenimiento, especialmente para proveedores de nube y organizaciones con altos requisitos de estabilidad.
Leer más
Entre la IA y los presupuestos recortados, la seguridad sigue siendo prioridad para BeyondTrust
OpenAI Academy: cómo son los cursos gratuitos que enseñan Inteligencia Artificial paso a paso
Las 5 mejores soluciones de evaluación de desempeño en 2025