Wiki do CiTIUS

¡Esta es una revisión vieja del documento!

Descripción del servicio

Servidores con gráficas de acceso libre

ctgpgpu4:
- Servidor PowerEdge R730
- 2 procesadores Intel Xeon E52623v4
- 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
- 2 x Nvidia GP102GL 24GB [Tesla P40] (2016)
- Sistema operativo AlmaLinux 9.1
  - Cuda 12.0
  - * Slurm para la gestión de colas de trabajo de uso obligatorio.

Servidores en el cluster de computación HPC: Cluster de computación HPC
Servidores en el CESGA: Solicitar acceso

Servidores con gráficas de acceso restringido

ctgpgpu5:
- Servidor PowerEdge R730
- 2 procesadores Intel Xeon E52623v4
- 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
- 2 tarxeta Nvidia GP102GL [Tesla P40]
- Sistema operativo Ubuntu 22.04
  - Driver Nvidia 560, CUDA versión 12.5
ctgpgpu6:
- Servidor SIE LADON 4214
- 2 procesadores Intel Xeon Silver 4214
- 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz)
- Nvidia Quadro P6000 24GB (2018)
- Nvidia Quadro RTX8000 48GB (2019)
- 2 x Nvidia A30 24GB (2020)
- Sistema operativo Centos 7.9
  - Driver Nvidia 535.86.10 para CUDA 12.2
ctgpgpu9:
- Servidor Dell PowerEdge R750
- 2 procesadores Intel Xeon Gold 6326
- 128 GB de memoria RAM
- 2x NVIDIA Ampere A100 de 80 GB
- Sistema operativo AlmaLinux 8.6
  - Driver NVIDIA 515.48.07 para CUDA 11.7
ctgpgpu10:
- Servidor Dell PowerEdge R750
- 2 procesadores Intel Xeon Gold 5317
- 128 GB de memoria RAM
- NVIDIA Ampere A100 de 80 GB
- Sistema operativo AlmaLinux 8.7
  - Driver NVIDIA 525.60.13 para CUDA 12.0
ctgpgpu11:
- Servidor Gybabyte G482-Z54
- 2 procesadores AMD EPYC 7413 @2,65 GHz 24c
- 256 GB de memoria RAM
- 5 x NVIDIA Ampere A100 de 80 GB
- Sistema operativo AlmaLinux 9.1
  - Driver NVIDIA 520.61.05 para CUDA 11.8
ctgpgpu12:
- Servidor Dell PowerEdge R760
- 2 procesadores Intel Xeon Silver 4410Y
- 384 GB de memoria RAM
- 2 x NVIDIA Hopper H100 de 80 GB
- Sistema operativo AlmaLinux 9.2
  - Driver NVIDIA 555.42.06 para CUDA 12.5

Alta en el servicio

No todos los servidores están disponibles en todo momento para cualquier uso. Para acceder a los servidores hay que solicitarlo previamente a través del formulario de incidencias. Los usuarios que no tengan permiso de acceso recibirán un mensaje de contraseña incorrecta.

Manual de usuario

Conexión con los servidores

Para conectarse a los servidores, debes hacerlo usando SSH. El nombre y las direcciones IP de los servidores son las siguientes:

ctgpgpu4.inv.usc.es - 172.16.242.201
ctgpgpu5.inv.usc.es - 172.16.242.202
ctgpgpu6.inv.usc.es - 172.16.242.205
ctgpgpu9.inv.usc.es - 172.16.242.94
ctgpgpu10.inv.usc.es - 172.16.242.95
ctgpgpu11.inv.usc.es - 172.16.242.96
ctgpgpu12.inv.usc.es - 172.16.242.97

La conexión solo es posible desde el interior de la red del centro. Para conectarse desde otras localizaciones o desde la red RAI es necesario hacer uso de la VPN o de la parasela SSH.

Apagado/encendido de los equipos

Los servidores se apagan para ahorrar energía si no detectan ninguna actividad durante una hora. Para encenderlos de nuevo, puedes hacer uso de la herramienta de encendido remoto.

Los servidores entienden como actividad:

cualquier sesión SSH abierta,
cualquier sesión de screen sin terminar.

Xestión dos traballos con SLURM

Nos servidores nos que hai un xestor de colas é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.

Para enviar un traballo á cola utilízase o comando srun:

srun programa_cuda argumentos_programa_cuda

O proceso srun agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma screen, e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.

Alternativamente, pódese utilizar nohup e pasar o traballo a segundo plano con &. Neste caso a saída gárdase no arquivo nohup.out:

nohup srun programa_cuda argumentos_programa_cuda &

Para ver o estado da cola utilízase o comando squeue. O comando mostra unha saída similar a esta:

JOBID PARTITION     NAME     USER  ST       TIME  NODES NODELIST(REASON)
9  servidore ca_water pablo.qu    PD       0:00      1 (Resources)
10 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
11 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
12 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
13 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
14 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
 8 servidore ca_water pablo.qu     R       0:11      1 ctgpgpu2

Tamén pode obterse unha vista interactiva, actualizada cada segundo, co comando smap:

smap -i 1

Servidores de computación GPGPU