TAZ-TFM-2018-962

Caracterización en memoria de la suite de Benchmarks SPEC CPU2017

Navarro Torres, Agustín
Ibáñez Marín, Pablo Enrique (dir.)

Universidad de Zaragoza, EINA, 2018
Informática e Ingeniería de Sistemas department, Arquitectura y Tecnología de Computadores area

Máster Universitario en Ingeniería Informática

Abstract: La investigación experimental en arquitectura de computadores se basa en alimentar a una máquina real o a un modelo de simulación con una carga de trabajo (workload) que nos permita evaluar ideas. La opción más habitual es usar una carga de trabajo consistente en un conjunto (suite) de programas de prueba (benchmarks) seleccionados para ser representativos del software contemporáneo o futuro a la fecha de selección. SPEC CPU es una de las suites de benchmarks más utilizadas en la investigación de arquitectura de computadores. La caracterización de estos programas es una de las primeras tareas a realizar por la comunidad de arquitectura de computadores. Entre los objetivos de los trabajos de caracterización podemos destacar la selección de muestras para simulación y la clasificación de programas según determinadas características. En este trabajo presentamos un análisis detallado del rendimiento de la jerarquía de memoria de un procesador Intel Xeon Skylake SP ejecutando los programas de SPEC CPU2006 y los mono-hilo de CPU2017. La experimentación se ha basado en varias herramientas disponibles en procesadores de altas prestaciones. Se ha utilizado la herramienta de profiling Perf para la lectura de los contadores hardware del procesador. Asimismo, se ha desarrollado la herramienta Perf++ que amplía las funcionalidades de Perf. Este soporte hardware de monitorización permite identificar fases temporales en base a cambios en la velocidad de ejecución de los programas. Se ha utilizado Intel Resource Directory, una tecnología presente en los procesadores Intel Xeon que permite limitar la asociatividad de la memoria cache del último nivel (Last Level Cache, LLC). De esta forma se puede analizar el comportamiento de los programas ante distintos tamaños del último nivel de la memoria cache. Además, mediante el registro de estado (MSR) se puede habilitar y deshabilitar los distintos prebuscadores hardware lo que permite analizar su influencia en la ejecución de los programas. Nuestros experimentos muestran que una parte importante de los programas provoca tasas de fallos muy bajas en la LLC, incluso con tamaños reducidos y sin prebúsqueda hardware. Aquellos programas que sí presionan los niveles superiores de cache han sido clasificados según su sensibilidad al tamaño de la LLC y a la prebúsqueda hardware. Hemos observado que aumentar el tamaño de la LLC reduce la tasa de fallos en LLC para muchos de estos programas. Por otra parte, la prebúsqueda hardware es muy eficiente: reduce los fallos en la LLC sin aumentar de forma significativa el ancho de banda utilizado. Por último, el análisis temporal de las programas muestra como la utilización de Simpoint no garantiza la identificación de puntos de simulación representativos desde el punto de vista del uso de la jerarquía de memoria.

Universidad de Zaragoza Repository

+

-