Servidores de computación GPGPU
Descrición do servizo
Estes servidores están destinados á computación con GPU (GPGPU), orientados a tarefas de cálculo intensivo, aprendizaxe automática, procesamento de datos e simulación científica que requiran aceleración por hardware gráfico.
Servidores de acceso libre
Nestes servidores pode solicitar acceso calquera investigador/a do centro. O acceso concédese previa solicitude e validación.
| Nodo | Servidor | CPU | RAM | GPUs | Sistema Operativo | Gestión de trabajos |
|---|---|---|---|---|---|---|
ctgpgpu4 | PowerEdge R730 | 2 × Intel Xeon E5-2623 v4 | 128 GB | 2 × Nvidia GP102GL 24GB (Tesla P40, 2016) | AlmaLinux 9.1 • CUDA 12.0 | Slurm (uso obligatorio) |
- Servidores no cluster de computación HPC: Cluster de computación HPC
- Servidores no CESGA: Solicitar acceso
Servidores de acceso restrinxido
Nestes servidores o acceso está restrinxido a un grupo concreto, proxecto específico ou ben está máis controlado por cuestións de xestión e planificación de recursos.
É imprescindible comprobar a información actualizada en Xici no momento de solicitar o servizo, onde se detalla a casuística particular de cada servidor (criterios de acceso, prioridades, condicións de uso, etc.).
| Nodo | Servidor | CPU | RAM | GPUs | Sistema Operativo | Gestión de trabajos |
|---|---|---|---|---|---|---|
ctgpgpu5 | PowerEdge R730 | 2 × Intel Xeon E5-2623 v4 | 128 GB | 2 × Nvidia GP102GL (Tesla P40) | Ubuntu 22.04 • Driver Nvidia 590 • CUDA Toolkit 12.5 y 13.1 (por defecto) | n/a |
ctgpgpu6 | SIE LADON 4214 | 2 × Intel Xeon Silver 4214 | 192 GB | Nvidia Quadro P6000 24GB (2018) Nvidia Quadro RTX8000 48GB (2019) 2 × Nvidia A30 24GB (2020) | CentOS 7.9 • Driver Nvidia 535.86.10 (CUDA 12.2) | n/a |
ctgpgpu9 | Dell PowerEdge R750 | 2 × Intel Xeon Gold 6326 | 128 GB | 2 × NVIDIA Ampere A100 80GB | AlmaLinux 8.6 • Driver NVIDIA 515.48.07 (CUDA 11.7) | n/a |
ctgpgpu11 | Gigabyte G482-Z54 | 2 × AMD EPYC 7413 @2.65 GHz (24c) | 256 GB | 5 × NVIDIA Ampere A100 80GB | AlmaLinux 9.1 • Driver NVIDIA 520.61.05 (CUDA 11.8) | n/a |
ctgpgpu12 | Dell PowerEdge R760 | 2 × Intel Xeon Silver 4410Y | 384 GB | 2 × NVIDIA Hopper H100 80GB | AlmaLinux 9.2 • Driver NVIDIA 555.42.06 (CUDA 12.5) | n/a |
ctgpgpu15 | SIE LADON (Gigabyte) | 2x AMD EPYC 9474F (48c) | 768 GB | 4 × NVIDIA H200 NVL | AlmaLinux 9.6 | ts |
ctgpgpu16 | SIE LADON (Gigabyte) | 2x AMD EPYC 9474F (48c) | 768 GB | 4 × NVIDIA H200 NVL | AlmaLinux 9.7 | ts |
ctgpgpu17 | SIE LADON (Gigabyte) | 2x AMD EPYC 9474F (48c) | 768 GB | 4 × NVIDIA H200 NVL | AlmaLinux 9.7 | ts |
ctgpgpu18 | SIE LADON (MegaRAC SP-X) | 2x AMD EPYC 9335 (24c) | 1536 GB | 4 × NVIDIA H200 | Ubuntu 22.04 | ts |
Alta no servizo
Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder aos servidores, hai que solicitalo previamente a través do formulario de incidencias. Os usuarios que non teñan permiso de acceso recibirán unha mensaxe de contrasinal incorrecto.
Manual de usuario
Conexión cos servidores
Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes:
| Nodo | FQDN | IP |
|---|---|---|
ctgpgpu4 | ctgpgpu4.inv.usc.es | 172.16.242.201 |
ctgpgpu5 | ctgpgpu5.inv.usc.es | 172.16.242.202 |
ctgpgpu6 | ctgpgpu6.inv.usc.es | 172.16.242.205 |
ctgpgpu9 | ctgpgpu9.inv.usc.es | 172.16.242.94 |
ctgpgpu11 | ctgpgpu11.inv.usc.es | 172.16.242.96 |
ctgpgpu12 | ctgpgpu12.inv.usc.es | 172.16.242.97 |
ctgpgpu15 | ctgpgpu15.inv.usc.es | 172.16.242.207 |
ctgpgpu16 | ctgpgpu16.inv.usc.es | 172.16.242.212 |
ctgpgpu17 | ctgpgpu17.inv.usc.es | 172.16.242.213 |
ctgpgpu18 | ctgpgpu18.inv.usc.es | 172.16.242.208 |
A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da VPN ou da parasela SSH.
Xestión dos traballos con SLURM
Nos servidores nos que hai un xestor de colas Slurm é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.
Para enviar un traballo á cola utilízase o comando srun:
srun programa_cuda argumentos_programa_cuda
O proceso srun agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma screen, e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.
Alternativamente, pódese utilizar nohup e pasar o traballo a segundo plano con &. Neste caso a saída gárdase no arquivo nohup.out:
nohup srun programa_cuda argumentos_programa_cuda &
Para ver o estado da cola utilízase o comando squeue. O comando mostra unha saída similar a esta:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 9 servidore ca_water pablo.qu PD 0:00 1 (Resources) 10 servidore ca_water pablo.qu PD 0:00 1 (Priority) 11 servidore ca_water pablo.qu PD 0:00 1 (Priority) 12 servidore ca_water pablo.qu PD 0:00 1 (Priority) 13 servidore ca_water pablo.qu PD 0:00 1 (Priority) 14 servidore ca_water pablo.qu PD 0:00 1 (Priority) 8 servidore ca_water pablo.qu R 0:11 1 ctgpgpu2
Tamén pode obterse unha vista interactiva, actualizada cada segundo, co comando smap:
smap -i 1
Xestión dos traballos con TS
Nos servidores que empregan ts como xestor de traballos, é obrigatorio utilizalo para executar tarefas que empreguen GPU, co fin de evitar conflitos e garantir unha asignación correcta dos recursos.
Para solicitar unha GPU débese antepoñer a opción -G 1 (ou o número de GPUs necesarias):
ts -G 1 programa_cuda argumentos_programa_cuda
Por exemplo:
ts -G 1 python train.py --epochs 100
O sistema encargarase de poñer o traballo en cola e executalo cando haxa unha GPU dispoñible.
Para consultar exemplos máis avanzados (múltiples GPUs, recursos adicionais, opcións específicas, etc.) pódese empregar o comando:
usage-overview