La nueva arquitectura de malla de Intel: la ‘superautopista’ del centro de datos
Como adelanto a la plataforma escalable de procesadores Intel Xeon – los mejores avances en una plataforma de centros de datos de Intel llevados a cabo esta década – Akhilesh Kumar – arquitecto de CPU – da a conocer su punto de vista sobre los objetivos de Intel para ocuparse de las necesidades los centros de datos y cómo lo demuestra con la nueva arquitectura de malla incorporada en la familia escalable.
Un aspecto destacado en la arquitectura de un centro de datos es su capacidad para obtener una mayor eficiencia para ofrecer el mejor rendimiento con la inversión realizada, además de maximizar los resultados dentro de las limitaciones de espacio y consumo existentes (por nombrar algunas de ellas). Los procesadores juegan un papel esencial en la optimización del centro de datos, y el impacto de la elección de la arquitectura de los procesadores y su efecto en la escalabilidad y la eficiencia pueden ser enormes. Conseguir el equilibrio ideal en estos factores requiere previsión, creatividad e innovación, algo que no ocurre de la noche a la mañana.
La experiencia de Intel en diseño de CPU y en plataformas para centros de datos para fines específicos se refleja en su amplia cartera de productos. Generación tras generación, Intel innova constantemente en capacidades informáticas esenciales para mejorar el rendimiento de los procesadores. Pero nuestro trabajo no acaba ahí. También debemos destacar la importancia de los avances en conectividad y escalabilidad entre todos los núcleos, el ajuste preciso de la jerarquía de la memoria y las mejoras de las E/S para garantizar la escalabilidad y la eficiencia entre el ordenador, la red y los sistemas de almacenamiento, que son los componentes principales de un centro de datos.
DIFICULTADES INICIALES: EL RETO DE LA ESCALA
La incorporación de más núcleos y las interconexiones entre ellos para crear unos procesadores con múltiples núcleos para centros de datos puede sonar sencillo, pero las interconexiones entre los núcleos del CPU, la jerarquía de la memoria y los subsistemas de E/S ofrecen unas rutas críticas entre estos subsistemas que precisan una arquitectura diseñada minuciosamente. Estas interconexiones son como una autopista bien planificada, con la cantidad apropiada de carriles y vías de acceso en lugares esenciales para permitir al tráfico fluir sencillamente en vez de dejar que las personas y los bienes permanezcan inactivos en la carretera sin generar productividad.
El aumento del número de núcleos del procesador y el incremento de la memoria y del ancho de banda de E/S por procesador para ofrecer servicio a las demandas de una gran cantidad de cargas de trabajo en los centros de datos generan varios retos que deben ser tratados con unas técnicas arquitectónicas creativas. Entre estos retos podemos destacar:
El incremento del ancho de banda entre núcleos y en la jerarquía de la caché en el chip, el controlador de la memoria y los controladores de E/S. Si el ancho de banda de la interconexión disponible no se escala adecuadamente con otros recursos en el procesador, la interconexión se convierte en un embotellamiento que limita la eficiencia del sistema como un frustrante atasco en hora punta.
La reducción de la latencia a la hora de acceder a los datos desde la caché en el chip, desde la memoria o desde otros núcleos. La latencia del acceso depende de las distancias entre los componentes del chip, la ruta que se tome para enviar solicitudes y respuestas y la velocidad a la que funcionan las interconexiones. Esto es similar al tiempo que se tarda en ir al trabajo en ciudades grandes en relación al tiempo que se precisa en urbes más compactas, la cantidad de rutas disponibles y la limitación de la velocidad en las autopistas.
La creación de mecanismos para ahorrar energía para el suministro de datos a los núcleos y a las E/S desde la caché en el chip y la memoria. Debido a las grandes distancias y al aumento de necesidades para ancho de banda de cada componente, cuando se añaden más núcleos se incrementa la cantidad de energía necesaria para el traslado de datos para realizar la misma tarea. En nuestro ejemplo del tráfico, a medida que una ciudad crece y aumentan las distancias para ir al trabajo, el tiempo y la energía que se pierde durante los traslados a los lugares de trabajo deja menos recursos disponibles para realizar un trabajo productivo.
Intel se compromete a desarrollar unas soluciones arquitectónicas innovadoras para estar por delante de estos retos a la hora de crear unos procesadores más potentes y eficientes para satisfacer las demandas de las cargas – tanto ya existentes como las que están surgiendo incluyendo las de la inteligencia artificial y el aprendizaje profundo.
DISEÑANDO EL PROCESADOR PARA LOS CENTROS DE DATOS DEL FUTURO
Intel ha aprovechado su experiencia y su innovación para el desarrollo de una nueva arquitectura para la próxima familia escalable de procesadores Intel Xeon, para proporcionar una base ampliable para los centros de datos modernos. Esta nueva arquitectura ofrece unos nuevos mecanismos para la interconexión de componentes en el chip, con el objetivo de mejorar la eficiencia y la escalabilidad de los procesadores con múltiples núcleos.
La familia escalable de procesadores Intel Xeon utilizan una innovadora topología de interconexión en el procesador de tipo “malla” que proporciona una baja latencia y un alto ancho de banda entre los núcleos, la memoria y los controladores de E/S. La Figura 1 muestra una representación de la arquitectura de malla en donde los núcleos, los bancos de la caché en el chip, los controladores de memoria y los controladores de E/S se organizan en filas y columnas, con cables y conmutadores conectándolos en cada intersección para permitir el funcionamiento por turnos. Proporcionando una ruta más directa que la anterior arquitectura de anillo y muchas más rutas para eliminar embotellamientos, la estructura de malla puede funcionar a una menor frecuencia y voltaje y puede ofrecer un ancho de banda muy alto y una baja latencia. De esta forma, se mejora el rendimiento y se ahorra energía, como una autopista bien diseñada que permite que el tráfico fluya a una velocidad óptima y sin atascos.
Además de mejorar la conectividad y la topología de las interconexiones en el chip, la familia escalable de procesadores Intel Xeon también cuentan con una arquitectura modular y con recursos escalables para el acceso a la caché en el chip, a la memoria, al E/S y a los CPU remotos. Estos recursos se distribuyen por el chip para minimizar los “puntos calientes” u otras limitaciones de recursos del subsistema. El aspecto modular y distribuido de la arquitectura permite que los recursos disponibles se amplíen a medida que aumenta el número de núcleos del procesador.
El marco escalable y de baja latencia de las interconexiones en el chip es también crítico para el último nivel compartido de la arquitectura de la caché. Esta gran caché compartida es valiosa para las aplicaciones de servidores de múltiples hilos de ejecución, como las bases de datos, las simulaciones físicas complejas, las aplicaciones en red de alto rendimiento y para alojar múltiples máquinas virtuales. Apenas existen diferencias en latencia a la hora de acceder a diferentes bancos de la memoria caché, lo que permite al software tratar a los bancos de la caché distribuida como una amplia memoria caché de alto nivel unificada. Como resultado de ello, los desarrolladores de aplicaciones no tienen que preocuparse por la variación de la latencia a la hora de acceder diferentes bancos de la caché, ni necesitan optimizar o recopilar código para tener un importante aumento de rendimiento en sus aplicaciones. Los mismos beneficios de un acceso uniforme a baja latencia los proporcionan los accesos a la memoria y a las E/S. Asimismo, una aplicación distribuida o de múltiples hilos de ejecución con interacción entre ejecuciones en diferentes núcleos y datos provenientes de dispositivos de entrada -salida (IO) no necesita mapear de forma minuciosa los hilos de ejecución cooperativos en el núcleo dentro de un único zócalo para proporcionar un rendimiento óptimo. Por ello, estas aplicaciones pueden obtener el máximo provecho de un mayor número de núcleos y conseguir una buena escalabilidad.
CONCLUSIÓN
La nueva arquitectura de las interconexiones con topología de malla ofrece un marco muy poderoso para la interconexión de los diferentes componentes – núcleos, caché, memoria y subsistema de E/S – de la familia escalable de procesadores Intel Xeon. Esta arquitectura innovadora permite obtener mejoras en rendimiento y eficiencia en la más amplia variedad de escenarios de uso, así como la base para unos avances contantes tanto por parte de Intel como de su ecosistema mundial inigualable, para proporcionar unas soluciones que ofrecen la capacidad informática y la eficiencia que esperan los clientes de los centros de datos.
Por Akhilesh Kumar, Arquitecto de CPU en Skylake-SP