Servidores de computación GPGPU

Descrición do servizo

Estes servidores están destinados á computación con GPU (GPGPU), orientados a tarefas de cálculo intensivo, aprendizaxe automática, procesamento de datos e simulación científica que requiran aceleración por hardware gráfico.

Servidores de acceso libre

Nestes servidores pode solicitar acceso calquera investigador/a do centro. O acceso concédese previa solicitude e validación.

Nodo	Servidor	CPU	RAM	GPUs	Sistema Operativo	Gestión de trabajos
`ctgpgpu4`	PowerEdge R730	2 × Intel Xeon E5-2623 v4	128 GB	2 × Nvidia GP102GL 24GB (Tesla P40, 2016)	AlmaLinux 9.1 • CUDA 12.0	Slurm (uso obligatorio)

Servidores no cluster de computación HPC: Cluster de computación HPC
Servidores no CESGA: Solicitar acceso

Servidores de acceso restrinxido

Nestes servidores o acceso está restrinxido a un grupo concreto, proxecto específico ou ben está máis controlado por cuestións de xestión e planificación de recursos.

É imprescindible comprobar a información actualizada en Xici no momento de solicitar o servizo, onde se detalla a casuística particular de cada servidor (criterios de acceso, prioridades, condicións de uso, etc.).

Nodo	Servidor	CPU	RAM	GPUs	Sistema Operativo	Xestión de traballos
`ctgpgpu5`	PowerEdge R730	2 × Intel Xeon E5-2623 v4	128 GB	2 × Nvidia GP102GL (Tesla P40)	Ubuntu 22.04 • Driver Nvidia 590 • CUDA Toolkit 12.5 y 13.1 (por defecto)	n/a
`ctgpgpu6`	SIE LADON 4214	2 × Intel Xeon Silver 4214	192 GB	Nvidia Quadro P6000 24GB (2018) Nvidia Quadro RTX8000 48GB (2019) 2 × Nvidia A30 24GB (2020)	CentOS 7.9 • Driver Nvidia 535.86.10 (CUDA 12.2)	n/a
`ctgpgpu9`	Dell PowerEdge R750	2 × Intel Xeon Gold 6326	128 GB	2 × NVIDIA Ampere A100 80GB	AlmaLinux 8.6 • Driver NVIDIA 515.48.07 (CUDA 11.7)	n/a
`ctgpgpu11`	Gigabyte G482-Z54	2 × AMD EPYC 7413 @2.65 GHz (24c)	256 GB	5 × NVIDIA Ampere A100 80GB	AlmaLinux 9.1 • Driver NVIDIA 520.61.05 (CUDA 11.8)	n/a
`ctgpgpu12`	Dell PowerEdge R760	2 × Intel Xeon Silver 4410Y	384 GB	2 × NVIDIA Hopper H100 80GB	AlmaLinux 9.2 • Driver NVIDIA 555.42.06 (CUDA 12.5)	n/a
`ctgpgpu15` ⚠️	SIE LADON (Gigabyte)	2x AMD EPYC 9474F (48c)	768 GB	4 × NVIDIA H200 NVL	AlmaLinux 9.6	ts
`ctgpgpu16` ⚠️	SIE LADON (Gigabyte)	2x AMD EPYC 9474F (48c)	768 GB	4 × NVIDIA H200 NVL	AlmaLinux 9.7	ts
`ctgpgpu17` ⚠️	SIE LADON (Gigabyte)	2x AMD EPYC 9474F (48c)	768 GB	4 × NVIDIA H200 NVL	AlmaLinux 9.7	ts
`ctgpgpu18` ⚠️	SIE LADON (MegaRAC SP-X)	2x AMD EPYC 9335 (24c)	1536 GB	4 × NVIDIA H200	Ubuntu 22.04	ts

⚠️ Os servidores ctgpgpu15, ctgpgpu16, ctgpgpu17 e ctgpgpu18 teñen unha instalación e asignacións temporais, e a súa configuración e accesos poderían verse alterados arredor de maio de 2026.

Alta no servizo

Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder aos servidores, hai que solicitalo previamente a través do formulario de incidencias. Os usuarios que non teñan permiso de acceso recibirán unha mensaxe de contrasinal incorrecto.

Manual de usuario

Conexión cos servidores

Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes:

Nodo	FQDN	IP
`ctgpgpu4`	ctgpgpu4.inv.usc.es	172.16.242.201
`ctgpgpu5`	ctgpgpu5.inv.usc.es	172.16.242.202
`ctgpgpu6`	ctgpgpu6.inv.usc.es	172.16.242.205
`ctgpgpu9`	ctgpgpu9.inv.usc.es	172.16.242.94
`ctgpgpu11`	ctgpgpu11.inv.usc.es	172.16.242.96
`ctgpgpu12`	ctgpgpu12.inv.usc.es	172.16.242.97
`ctgpgpu15`	ctgpgpu15.inv.usc.es	172.16.242.207
`ctgpgpu16`	ctgpgpu16.inv.usc.es	172.16.242.212
`ctgpgpu17`	ctgpgpu17.inv.usc.es	172.16.242.213
`ctgpgpu18`	ctgpgpu18.inv.usc.es	172.16.242.208

A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da VPN ou da parasela SSH.

Xestión dos traballos con SLURM

Nos servidores nos que hai un xestor de colas Slurm é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.

Para enviar un traballo á cola utilízase o comando srun:

srun programa_cuda argumentos_programa_cuda

O proceso srun agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma screen, e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.

Alternativamente, pódese utilizar nohup e pasar o traballo a segundo plano con &. Neste caso a saída gárdase no arquivo nohup.out:

nohup srun programa_cuda argumentos_programa_cuda &

Para ver o estado da cola utilízase o comando squeue. O comando mostra unha saída similar a esta:

JOBID PARTITION     NAME     USER  ST       TIME  NODES NODELIST(REASON)
9  servidore ca_water pablo.qu    PD       0:00      1 (Resources)
10 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
11 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
12 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
13 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
14 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
 8 servidore ca_water pablo.qu     R       0:11      1 ctgpgpu2

Tamén pode obterse unha vista interactiva, actualizada cada segundo, co comando smap:

smap -i 1

Xestión dos traballos con TS

Nos servidores que empregan ts como xestor de traballos, é obrigatorio utilizalo para executar tarefas que empreguen GPU, co fin de evitar conflitos e garantir unha asignación correcta dos recursos.

Para solicitar unha GPU débese antepoñer a opción -G 1 (ou o número de GPUs necesarias):

ts -G 1 programa_cuda argumentos_programa_cuda

Por exemplo:

ts -G 1 python train.py --epochs 100

O sistema encargarase de poñer o traballo en cola e executalo cando haxa unha GPU dispoñible.

Para consultar exemplos máis avanzados (múltiples GPUs, recursos adicionais, opcións específicas, etc.) pódese empregar o comando:

usage-overview