Infraestructura

El supercomputador del NLHPC, Guacolda-Leftraru, es una infraestructura de computación de alto rendimiento (HPC, del inglés High Performance Computing) basado en una arquitectura de memoria distribuida. Este sistema de HPC responde a un diseño conocido como clúster de computadores, el cual se define como un grupo de servidores interconectados a través de una red de alta velocidad que, gracias al software de control, tienen la capacidad de trabajar como un solo gran computador. Estos servidores (nodos de cómputo), son generalmente utilizados por los usuarios para ejecutar aplicaciones de cálculo científico o aplicaciones que procesan gran cantidad de datos. Guacolda-Leftraru cuenta con 5236 núcleos de cómputo distribuidos en 192 nodos de cómputo. Los nodos de cómputo están funcionando a pleno rendimiento sin tener «estrés» alguno, ya que están contenidos en tres racks que están diseñados para ser enfriados por agua. Estos racks reciben unos 100 litros de agua por minuto a 11ºC, que le permiten mantener una temperatura interna en torno a los 20ºC, incluso cuando los nodos están operando al 100% de su capacidad. Además de estos tres racks, hay otros dos. Uno de ellos que contiene todos los nodos de soporte para la operación y el switch principal de comunicaciones. Este switch, Mellanox MSX6512-NR, usa la tecnología InfiniBand FDR que permite la comunicación entre los nodos con un ancho de banda de 56 Gbps y a una velocidad muy superior a la que ofrecen las tecnologías habituales, ya que esta está diseñada para ser usada en redes de HPC. En el último rack está disponible el sistema de almacenamiento, en el cual se implementa la solución SFA12K-20 de DDN, que ofrece un alto rendimiento de acceso a disco, incluso cuando cientos de aplicaciones están usándolo de manera simultánea, ya que asegura un acceso paralelo a éste. Así pues, se puede decir que Guacolda-Leftraru es una solución completa y de alto rendimiento, ya que integra a la perfección los tres principales aspectos que se deben de tener en cuenta cuando se diseña una infraestructura de cómputo de alto rendimiento: gran capacidad de procesamiento (266 Tflops), una rápida red de interconexión (InfiniBand FDR) y una alta velocidad de acceso a disco (DDN SFA12K-20).

La infraestructura del NLHPC está compuesta por los clústeres llamados Guacolda y Leftraru, que se integran entre sí, compartiendo almacenamiento y conectividad. Leftraru entró en operación a finales del 2014 y Guacolda se unió a este a mediados de 2019, para incrementar la capacidad de cómputo que dispone el NLHPC.

Nuestros clústeres

Las características de nuestro supercomputador:

Guacolda - Clúster Dell (2019)

  • 2596 cores de cómputo
  • 16.512 GB de RAM
  • 48 nodos Dell PowerEdge C6420
  • 9 nodos Dell PowerEdge R640
  • 2 nodos Dell PowerEdge R740 con 2 GPU NVIDIA Tesla V100 cada uno
  • Todos los nodos con dos CPUs Intel® Xeon® Gold 6152
  • 196 TFlops de rendimiento teórico

Leftraru - Clúster HPE (2014)

  • 2640 cores de cómputo
  • 6.400 GB RAM
  • 128 nodos HPE ProLiant SL230s Gen8
  • 4 nodos HPE ProLiant SL250s Gen8
  • Todos los nodos con dos CPUs Intel® Ivy Bridge® E5-2660 v2
  • 70 TFlops de rendimiento teórico

Red InfiniBand FDR a 56Gbits/s

274 TB de almacenamiento DDN EXAScaler (SFA-12K-20)

Capacidad total

La capacidad total de Leftraru+Guacolda a día de hoy (última actualización: finales de 2019):

cores

Tflops

TB almacenamiento Lustre

TB RAM

Recursos computacionales

La distribución de todos estos recursos computacionales se realiza por medio de “particiones” con el gestor de recursos Slurm de la siguiente forma:

Partición general

Nodo Modelo Cantidad Procesador RAM Infiniband Ethernet
sn[001-048] Dell PowerEdge C6420 48 2 x Intel(R) Xeon(R) Gold 6152 CPU @ 2.10GHz. 22 cores C./U. 192 GB Infiniband FDR 4X Mellanox 2 Ethernet 1 GB

 

Partición largemem

Nodo Modelo Cantidad Procesador RAM Infiniband Ethernet
fn[001-009] Dell PowerEdge R640 9 2 x Intel(R) Xeon(R) Gold 6152 CPU @ 2.10GHz. 22 cores C./U. 768 GB Infiniband FDR 4X Mellanox 2 Ethernet 1 GB

 

Partición gpus

Nodo Modelo Cantidad Procesador RAM Infiniband Ethernet GPU
gn[001-002] Dell PowerEdge R740 2

2 x Intel(R) Xeon(R) Gold 6152 CPU @ 2.10GHz. 22 cores C./U.

192 GB Infiniband FDR 4X Mellanox 2 Ethernet 1 GB 2x NVIDIA Tesla V100 C/U.

 

Partición slims

Nodo Modelo Cantidad Procesador RAM Infiniband Ethernet
Nodos delgados HP ProLiant SL230s Gen8 128 2 x Intel Xeon E5-2660 10 cores C./U. 48 GB Infiniband FDR 4X Mellanox 2 Ethernet 1 GB
Nodos gruesos HP ProLiant SL250s Gen8 4 2 x Intel Xeon E5-2660 10 cores C./U. 64 GB Infiniband FDR 4X Mellanox 2 Ethernet 1 GB

 

Partición debug

Nodo Modelo Cantidad Procesador RAM Infiniband Ethernet
leftraru[1-4] HP ProLiant SL250s Gen8 4 2 x Intel Xeon E5-2660 10 cores C./U. 64 GB Infiniband FDR 4X Mellanox 2 Ethernet 1 GB

 

* La partición debug es para uso exclusivo de pruebas que duren hasta 30 minutos. Cualquier trabajo que supere ese tiempo es cancelado automáticamente.

Servicios

Servicios para la academia, industria e instituciones públicas

Equipo

Equipo humano del NLHPC