CARLA 2021 – Trabajar con un gestor de recursos en una infraestructura HPC


Fecha: 27 de septiembre 2021
Hora de inicio: 10:00 hrs.

Instructores: Eugenio Guerra – Esteban Osorio

Idioma: Español

Laboratorio Nacional de Computación de Alto Rendimiento (NLHPC)

Asistencia: 80 personas

Requisitos:
Para poder seguir el curso y los comandos que ejecutará el profesor, se recomienda tener conocimientos de Linux.

En este taller se mostrará cómo utilizar el sistema de gestión de recursos Slurm presente en la gran mayoría de los supercomputadores top500. Se utilizará el cluster Leftraru-Guacolda del National High Performance Computing Laboratory (NLHPC).

El tutorial se desarrollará en 2 sesiones de 4 horas cada una.

El contenido de la sesión número 1 es el siguiente:

Módulo I

  • Infraestructura del NLHPC
  • Presentación de la infraestructura del NLHPC
  • Acceso al clúster y envío de tareas
  • Nodos de acceso a NLHPC
  • Uso básico de Slurm
  • Uso del comando srun y sus parámetros
  • Uso del comando sbatch
  • Script básico
  • Tareas de cola
  • Monitorización de tareas
  • Cancelación de tareas
  • Subutilización de recursos
  • Otras tareas básicas
  • Software disponible
  • Listado de software disponible
  • Utilización del software disponible
  • Eficiencia computacional
  • Otros

Módulo II

  • Programación paralela (nociones básicas)
  • Modelo de memoria compartida (OpenMP)
  • Modelo de paso de mensajes (MPI)
  • Ejecución de simulaciones
  • Trabajos secuenciales
  • Trabajos OpenMP
  • Trabajos MPI
  • Trabajos secuenciales múltiples (job array)
  • Trabajos que utilizan GPUs
  • Dependencias de los trabajos
  • Programación de tareas mediante crontab
  • Punto de control/reinicio
  • Monitorización de simulaciones
  • Monitorización de simulaciones mediante http
  • Monitorización de simulaciones mediante Ganglia
  • Gráficos de utilización en el correo de notificación
  • Instalación y compilación de aplicaciones
  • Compiladores y banderas utilizadas
  • Compilación de programas desde el código fuente
  • Instalación de módulos en Python
  • Instalación de módulos en R
  • Problemas frecuentes
  • Cancelación por exceso de memoria
  • Cancelación por infrautilización de la CPU
  • Cancelación por infrautilización de Memoria
  • Sobreutilización de recursos

Para más información visite este link.