Se comprueba que el usuario que ejecuta la herramienta tiene las claves SSH configuradas adecuadamente para ejecutar aplicaciones paralelas basadas en el traspaso de mensajes MPI.
Intel Cluster Checker es una potente herramienta para identificar y resolver rápidamente problemas en clústeres dedicados a la Computación de Alto Rendimiento (High Performance
Computing, HPC). Problemas sutiles y algunas veces sencillos pueden impactar negativamente el rendimiento de un clúster y dar al traste con los esfuerzos de puesta a punto y paralelización de una aplicación. Frecuentemente, los primeros síntomas de un problema sistémico se hacen visibles cuando las aplicaciones empiezan a ejecutarse muy lentamente, o simplemente dejan de funcionar. Intel Cluster
Checker ofrece una manera metódica de ayudar a determinar rápidamente si la razón subyacente por la que una aplicación está presentando problemas tiene que ver con un problema en el clúster.
Conocimiento experto sobre clústeres embebido en una herramienta
Intel Cluster Checker incorpora los métodos y sistemas de diagnóstico más conocidos en una única herramienta. Presentado por primera vez en 2007 como parte del programa Intel Cluster Ready, su objetivo clave es el de ofrecer una herramienta que sirva de apoyo a un amplio rango de especialistas que diseñan, despliegan y gestionan clústeres.
Diagnósticos esenciales en Intel Cluster Checker
Crear y gestionar clústeres HPC es mucho más complejo que gestionar sistemas individuales. Por su propia naturaleza, los sistemas más potentes en el planeta, pertenecientes al llamado TOP500, son sistemas creados a medida y con un personal dedicado completamente a operarlos. Muchos de esos entornos crecen orgánicamente a lo largo de los años, mantenidos por arquitectos con profundos conocimientos en este espacio.
El problema es que el enfoque utilizado en los grandes centros de datos HPC no es necesariamente escalable a sistemas más pequeños. El alto grado de experiencia requerido puede intimidar a las pequeñas y medianas empresas. Incluso las empresas más grandes que estén considerando adoptar HPC deberán sopesar el tiempo y esfuerzo necesarios para que las capacidades requeridas comiencen a funcionar. La curva de aprendizaje puede parecer una montaña demasiado alta para escalar ?incluso teniendo en cuenta que el retorno de la inversión que produce la utilización de HPC es sustancial. [Nota del Editor: De acuerdo con un estudio reciente de Hyperion Research, cada dólar invertido en HPC produce $551 de ganancia en crecimiento y $52 de beneficio]. Intel Cluster Checker ofrece el conocimiento experto embebido en una herramienta para reducir el “factor de intimidación” para aquellos que estén considerando escalar o ampliar las capacidades HPC.
Intel Cluster Checker opera de manera similar a un sistema clínico, buscando síntomas de que existe un problema y examinando esos síntomas para diagnosticar problemas potenciales y sugerir posibles remedios para ellos. Diversos proveedores de datos encapsulan herramientas y funciones de diagnóstico comunes, y la herramienta utiliza esos proveedores para recolectar información acerca del clúster. Un sistema experto guiado por reglas analiza entonces esa información para tratar de detectar problemas potenciales. Una combinación de diferentes signos puede llevar a un diagnóstico, y la herramienta puede frecuentemente sugerir una solución. De tal manera, Intel Cluster Checker simula el análisis por parte de un experto de la funcionalidad del clúster y facilita la resolución rápida de los problemas.
¿Qué se comprueba?
Intel Cluster Checker incluye un amplio rango de proveedores de datos y reglas comúnmente asociadas a los fallos en sistemas o la degradación del rendimiento. Al más alto nivel, Intel Cluster Checker examina los elementos de nodos individuales y su funcionalidad básica, para luego centrar el énfasis en la funcionalidad a lo ancho de todo el clúster. No disponemos del espacio que requeriría enumerar todas las comprobaciones que se llevan a cabo, pero he aquí algunos ejemplos:
Intel Cluster Checker utiliza además diversas funciones que producen valores de referencia para intentar calibrar en qué medida el rendimiento actual se compara con el rendimiento esperado. Tales funciones son muy valiosas durante el despliegue inicial tras el que se declara un sistema listo para su uso. Ellas juegan también un papel en el mantenimiento de la salud general del sistema. La versión actual examina cientos de aspectos para un clúster, y la lista de comprobaciones sigue creciendo con cada nueva actualización de la herramienta.
A lo largo del tiempo de vida operativo de un clúster, es muy posible que se introduzcan cambios sutiles al reemplazar ciertos elementos, y que se produzcan expansiones de nodos o reconfiguraciones de software y hardware. Por ejemplo, una nueva tarjeta de red que sustituya a una existente podría ser conectada a un slot PCI distinto del que se venía usando anteriormente. Los nuevos nodos añadidos al clúster podrían incorporar un procesador Intel Xeon distinto al de los otros nodos. Alguien podría accidentalmente olvidar actualizar la configuración de la BIOS en uno de los nodos.
A lo largo del tiempo de vida operativo de un clúster, es muy posible que se introduzcan cambios sutiles al reemplazar ciertos elementos, y que se produzcan expansiones de nodos o reconfiguraciones de software o hardware.
Intel Cluster Checker ayuda a detectar esos síntomas y llamar la atención sobre ellos. Ninguno de esos signos tiene obligatoriamente que constituir un problema para un sistema o aplicación particular, pero la herramienta los presenta como aspectos a examinar. El uso de Intel Cluster Checker puede hacer la operación del clúster menos intimidante para quienes no tengan un conocimiento profundo sobre administración y gestión de clústeres, y aumentar el conjunto de herramientas a disposición de quienes sí los tengan.
Además de la salud de un clúster, Intel Cluster Checker puede también comprobar que el clúster ofrece el nivel de compatibilidad de aplicaciones descrito en la arquitectura de referencia de Intel Scalable System Framework (Intel® SSF). La arquitectura de referencia Intel SSF describe los requerimientos de sistema que definen un nivel mínimo de características de sistema. Algunas de esas características se refieren a elementos del software de sistema para clústeres basados en Linux, así como a los requisitos mínimos para el hardware del sistema. Los clústeres que cumplen con la especificación ofrecen una interfaz de plataforma común a la que pueden orientarse los desarrolladores de aplicaciones. Las aplicaciones que se apoyen en esa capa común funcionarán correctamente en cualquier sistema que cumpla con la arquitectura de referencia. Este emparejamiento de aplicaciones y sistemas hace posible una interoperabilidad que además simplifica la expansión del uso de los clústeres HPC.
Extendiendo y embebiendo funcionalidad
Las tecnologías y componentes que forman parte de clústeres está evolucionando constantemente, lo que aumenta el potencial para nuevos tipos de problemas. Por esta razón, la extensibilidad es una característica esencial de Intel Cluster Checker a la hora de mantener el ritmo adecuado para satisfacer las necesidades de sus usuarios. Una vez que se tiene conocimiento de un nuevo tipo de problema específico, la adición de los mecanismos necesarios para detectarlo y resolverlo hace que su futura comprobación se convierta en algo rutinario. Los usuarios pueden incluso crear sus propios proveedores de datos y verificaciones e incluirlos de manera similar.
Intel Cluster Checker 2018 ofrece la capacidad de agrupar funciones de recolección y análisis en marcos de trabajo (frameworks). Tales marcos de trabajo hacen posible una alta flexibilidad en el modo de operar de la herramienta y ofrecen una vía rápida para incorporar nuevas verificaciones y extender las capacidades.
Los desarrolladores de aplicaciones pueden además embeber las funcionalidades de Intel Cluster Checker directamente en sus aplicaciones utilizando una API que permite controlar la recolección y el análisis de datos. Esta posibilidad de embeber funcionalidad ofrece una amplia gama de opciones que los desarrolladores pueden aprovechar, de manera similar a si se ejecutara Intel Cluster Checker desde la línea de comandos. Por ejemplo, las aplicaciones pueden solicitar la verificación de la salud general del clúster o el cumplimiento con la arquitectura de referencia Intel SSF. Esto también implica que los desarrolladores pueden añadir reglas personalizadas que comprueben aspectos del sistema específicos a las necesidades de la aplicación. Todo ello ofrece un mecanismo programático para realizar la validación y depuración del sistema desde el punto de vista de la aplicación. La aplicación podría detectar problemas subyacentes e informar al usuario de dificultades potenciales. La documentación en línea de la herramienta incluye ejemplos de utilización de la API.
Enfoque hacia la productividad
Los cambios en las configuraciones, una combinación de componentes de hardware y software, o el estado de salud del sistema pueden manifestarse como problemas para una aplicación HPC. El uso de Intel Cluster Checker ayuda a identificar cuándo los sistemas están en un estado conocido y saludable. Esto promueve una mejor experiencia de uso de la aplicación para sus usuarios. Si existen problemas, la herramienta puede rápidamente guiar a los usuarios hacia una solución inmediata. En última instancia, se baja significativamente la barrera de experiencia necesaria para ejecutar clústeres HPC, y se abre las puertas a que más usuarios ejecuten aplicaciones en clústeres para alcanzar mejores resultados.
Intel Cluster Checker está actualmente disponible como parte de Intel Parallel Studio XE Cluster Edition. Adicionalmente, se ofrece en sistemas que utilicen Intel HPC Orchestrator, y podría incluirse en soluciones que cumplan con la arquitectura de referencia de Intel SSF para clústeres HPC clásicos.
Dejar un comentario
¿Quieres unirte a la conversación?¡Siéntete libre de contribuir!