====== Servidores de computación GPGPU ======

===== Descrición do servizo =====

==== Servidores con gráficas de acceso libre ====

  * ''ctgpgpu4'':
      * Servidor PowerEdge R730
      * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
      * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
      * 2 x Nvidia GP102GL 24GB [Tesla P40] (2016)
      * Sistema operativo AlmaLinux 9.1
          * Cuda 12.0
          * * **Slurm para la gestión de colas de trabajo de uso obligatorio**.

  * Servidores no cluster de computación HPC: [[ centro:servizos:hpc | Cluster de computación HPC ]]
  * Servidores no CESGA: [[ centro:servizos:cesga | Solicitar acceso ]]

==== Servidores con gráficas de acceso restrinxido ====

  * ''ctgpgpu5'':
      * Servidor PowerEdge R730
      * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
      * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
      * 2 tarxeta Nvidia GP102GL [Tesla P40]
      * Sistema operativo Ubuntu 22.04
          * Driver Nvidia 560, CUDA versión 12.5
  * ''ctgpgpu6'': 
      * Servidor SIE LADON 4214
      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193385/intel-xeon-silver-4214-processor-16-5m-cache-2-20-ghz.html|Intel Xeon Silver 4214]]
      * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) 
      * Nvidia Quadro P6000 24GB (2018)
      * Nvidia Quadro RTX8000 48GB (2019)
      * 2 x Nvidia A30 24GB (2020)
      * Sistema operativo Centos 7.9
          * Driver Nvidia 535.86.10 para CUDA 12.2
  * ''ctgpgpu9'':
      * Servidor Dell PowerEdge R750
      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215274/intel-xeon-gold-6326-processor-24m-cache-2-90-ghz.html |Intel Xeon Gold 6326 ]]
      * 128 GB de memoria RAM 
      * 2x NVIDIA Ampere A100 de 80 GB
      * Sistema operativo AlmaLinux 8.6
           * Driver NVIDIA 515.48.07 para CUDA 11.7
  * ''ctgpgpu10'':
      * Servidor Dell PowerEdge R750
      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215272/intel-xeon-gold-5317-processor-18m-cache-3-00-ghz.html |Intel Xeon Gold 5317 ]]
      * 128 GB de memoria RAM 
      * NVIDIA Ampere A100 de 80 GB
      * Sistema operativo AlmaLinux 8.7
           * Driver NVIDIA 525.60.13 para CUDA 12.0
   * ''ctgpgpu11'':
      * Servidor Gybabyte  G482-Z54
      * 2 procesadores [[ https://www.amd.com/es/products/cpu/amd-epyc-7413 | AMD EPYC 7413 @2,65 GHz 24c ]]
      * 256 GB de memoria RAM
      * 5 x NVIDIA Ampere A100 de 80 GB  
      * Sistema operativo AlmaLinux 9.1
           * Driver NVIDIA 520.61.05 para CUDA 11.8
  * ''ctgpgpu12'':
      * Servidor Dell PowerEdge R760
      * 2 procesadores [[ https://ark.intel.com/content/www/xl/es/ark/products/232376.html |Intel Xeon Silver 4410Y ]]
      * 384 GB de memoria RAM 
      * 2 x NVIDIA Hopper H100 de 80 GB
      * Sistema operativo AlmaLinux 9.2
           * Driver NVIDIA 555.42.06 para CUDA 12.5
===== Alta no servizo =====
Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder aos servidores, hai que solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Os usuarios que non teñan permiso de acceso recibirán unha mensaxe de contrasinal incorrecto.

===== Manual de usuario =====
==== Conexión cos servidores ====
Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes:

  * ctgpgpu4.inv.usc.es - 172.16.242.201
  * ctgpgpu5.inv.usc.es - 172.16.242.202
  * ctgpgpu6.inv.usc.es - 172.16.242.205
  * ctgpgpu9.inv.usc.es - 172.16.242.94
  * ctgpgpu10.inv.usc.es - 172.16.242.95
  * ctgpgpu11.inv.usc.es - 172.16.242.96
  * ctgpgpu12.inv.usc.es - 172.16.242.97

A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[:centro:servizos:vpn:start|VPN]] ou da [[:centro:servizos:pasarela_ssh|parasela SSH]].

==== Apagado/acendido dos equipos ====
Os servidores apáganse para aforrar enerxía ó non detectar actividade algunha durante unha hora. Para acendelos de novo, podes facer uso da [[centro:servizos:acendido_remoto_de_equipos_wake_on_lan|ferramenta de acendido remoto]].

Os servidores entenden como actividade:
  * calquera sesión SSH aberta,
  * calquera sesión de screen sen rematar

==== Xestión dos traballos con SLURM ====

Nos servidores nos que hai un xestor de colas é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.

Para enviar un traballo á cola utilízase o comando ''srun'':

  srun programa_cuda argumentos_programa_cuda

O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'', e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.

Alternativamente, pódese utilizar ''nohup'' e pasar o traballo a segundo plano con ''&''. Neste caso a saída gárdase no arquivo ''nohup.out'':

  nohup srun programa_cuda argumentos_programa_cuda &

Para ver o estado da cola utilízase o comando ''squeue''. O comando mostra unha saída similar a esta:

<code>JOBID PARTITION     NAME     USER  ST       TIME  NODES NODELIST(REASON)
9  servidore ca_water pablo.qu    PD       0:00      1 (Resources)
10 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
11 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
12 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
13 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
14 servidore ca_water pablo.qu    PD       0:00      1 (Priority)
 8 servidore ca_water pablo.qu     R       0:11      1 ctgpgpu2</code>

Tamén pode obterse unha vista interactiva, actualizada cada segundo, co comando ''smap'':

  smap -i 1