Infraestructura

El supercomputador del NLHPC, Guacolda-Leftraru Epu, es una infraestructura de computación de alto rendimiento (HPC, del inglés High Performance Computing) basado en una arquitectura de memoria distribuida.

Se puede decir que Guacolda-Leftraru Epu es una solución completa y de alto rendimiento, ya que integra a la perfección los tres principales aspectos que se deben de tener en cuenta cuando se diseña una infraestructura de cómputo de alto rendimiento: gran capacidad de procesamiento (479 Tflops), una rápida red de interconexión (InfiniBand NDR) y una alta velocidad de acceso a disco (IBM ESS 3200).

La infraestructura del NLHPC está compuesta por los clústeres llamados Guacolda y Leftraru Epu, que se integran entre sí, compartiendo almacenamiento y conectividad. Guacolda entró en operación a mediados del 2019 y Leftraru Epu se unió a este a mediados de 2024, para incrementar la capacidad de cómputo que dispone el NLHPC. Guacolda-Leftraru Epu cuenta con 9.956 núcleos de cómputo distribuidos en 91 nodos de cómputo.

Nuestros clústeres

Las características de nuestro supercomputador:

Guacolda - Clúster Dell (2019)

  • 2.596 cores de cómputo
  • 16.235 GB de RAM
  • 48 nodos Dell PowerEdge C6420
  • 9 nodos Dell PowerEdge R640
  • 2 nodos Dell PowerEdge R740 con 2 GPU NVIDIA Tesla V100 cada uno, con un total de 20.480 GPU cores.
  • Todos los nodos con dos CPUs Intel Xeon Gold 6152
  • 1 nodo Dell PowerEdge R7525 con 2 GPU AMD Instinct™ MI100 , con un total de 15.360 Procesadores Streams (23 TFlops).
  • 219 TFlops de rendimiento

Leftraru Epu - Clúster Lenovo (2024)

  • 7.360 cores de cómputo
  • 24.320 GB de RAM
  • 27 nodos Lenovo ThinkSystem SR645 V3
  • 2 nodos Lenovo ThinkSystem SR675 V3 con 6 GPU AMD Instinct™ MI210 cada uno, con un total de 79.872 Procesadores Streams.
  • 260 TFlops de rendimiento

Red InfiniBand NDR a 400Gbits/s

4 PB de almacenamiento IBM Elastic Storage System (IBM ESS 3200)

Capacidad total

La capacidad total de Guacolda-Leftraru Epu al día de hoy (última actualización: mediados 2024):

CPU cores

GPU cores

Tflops

PB almacenamiento

TB RAM

Recursos computacionales

La distribución de todos estos recursos computacionales se realiza por medio de “particiones” con el gestor de recursos Slurm de la siguiente forma:

Partición general

Nodo Modelo Cantidad Procesador RAM Infiniband
sn[001-048] Dell PowerEdge C6420 48 2 x Intel Xeon Gold 6152 CPU @ 2.10GHz, 22 cores c/u 187 GB Infiniband FDR

Partición largemem

Nodo Modelo Cantidad Procesador RAM Infiniband
fn[001-009] Dell PowerEdge R640 9 2 x Intel Xeon Gold 6152 CPU @ 2.10GHz, 22 cores c/u 765 GB Infiniband FDR

Partición v100

Nodo Modelo Cantidad Procesador GPU RAM Infiniband
gn[001-002] Dell PowerEdge R740 2 2 x Intel Xeon Gold 6152 CPU @ 2.10GHz, 22 cores c/u 2x NVIDIA Tesla V100 c/u 187 GB Infiniband FDR

 

Partición mi100

Nodo Modelo Cantidad Procesador GPU RAM Infiniband
gn003 Dell PowerEdge R7525 1 2 x AMD EPYC 7713 @ 3.9GHz, 128 cores c/u 2x  AMD Instinct MI100 c/u 512 GB Infiniband NDR

 

Partición MI210

Nodo Modelo Cantidad Procesador GPU RAM Infiniband
gn00[4-5] Lenovo ThinkSystem SR675 V3 2 2 x AMD EPYC 9224 @ 2.5GHz, 24 cores c/u 6x  AMD Instinct MI210 c/u 1457 GB Infiniband NDR

 

Partición main

Nodo Modelo Cantidad Procesador RAM Infiniband
mn0[01-27] Lenovo ThinkSystem SR645 V3 27 2 x AMD EPYC 9754 @ 2,25GHz, 128 cores c/u 768 GB Infiniband NDR

Partición debug

Nodo Modelo Cantidad Procesador RAM Infiniband
leftraru[1-2] Lenovo ThinkSystem SR645 V3 2 2 x AMD EPYC 9224  @ 2,5GHz, 24 cores c/u 768 GB Infiniband NDR

 

Servicios

Servicios para la academia, industria e instituciones públicas

Equipo

Equipo humano del NLHPC