Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

Enlazar a esta vista de comparación

Both sides previous revisionPrevious revision
Next revision
Previous revision
centro:servizos:servidores_de_computacion_gpgpu [2019/11/14 10:47] fernando.guillencentro:servizos:servidores_de_computacion_gpgpu [2024/09/09 14:53] (actual) jorge.suarez
Liña 3: Liña 3:
 ===== Descrición do servizo ===== ===== Descrición do servizo =====
  
-Seis servidores con gráficas:+==== Servidores con gráficas de acceso libre ====
  
-  * ''ctgpgpu1'': 
-    * Servidor Supermicro X8DTG-D 
-    * 2 procesadores [[http://ark.intel.com/products/40200|Intel Xeon E5520]] 
-    * 10 GB de memoria RAM (5 DIMM a 1333 MHz) 
-    * 2 tarxetas Nvidia GF100 [Tesla S2050] 
-      * Unhas das tarxetas atópase temporalmente noutro servidor para unhas probas. Polo tanto, polo de agora só hai unha tarxeta dispoñible. 
-    * Sistema operativo Ubuntu 10.04 
-      * CUDA versión 5.0 
-  * ''ctgpgpu2'' 
-    * Servidor Dell Precision R5400 
-    * 2 procesadores [[http://ark.intel.com/products/33082/|Intel Xeon E5440]] 
-    * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz) 
-    * 1 tarxeta Nvidia GK104 [Geforce GTX 680] 
-    * Sistema operativo Ubuntu 18.04 
-      * Slurm (//de uso obrigatorio para a xestión de traballos//) 
-      * CUDA 9.2 (//repositorio oficial de Nvidia//) 
-      * Docker-ce 18.06 (//repositorio oficial de Docker//) 
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//) 
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2 
-      * Intel Parallel Studio Professional for C++ 2015 (//licenza única, avisa se vas usalo!//) 
-  * ''ctgpgpu3'': 
-    * Servidor PowerEdge R720 
-    * 1 procesador [[http://ark.intel.com/products/64588|Intel Xeon E52609]] 
-    * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz) 
-    * Conectado a un caixón de gráficas con: 
-      * Gigabyte GeForce GTX Titan 6GB (2014) 
-      * Nvidia Titan X Pascal 12GB (2016) 
- 
-    * Sistema operativo Ubuntu 18.04 
-      * Slurm (//de uso obrigatorio para a xestión de traballos//) 
-      * CUDA 9.2 (//repositorio oficial de Nvidia//) 
-      * Docker-ce 18.06 (//repositorio oficial de Docker//) 
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//) 
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2 
-      * Intel Parallel Studio Professional for C++ 2015 (//licenza única, avisa se vas usalo!//) 
-      * ROS Melodic Morenia (//repositorio oficial de ROS//) 
   * ''ctgpgpu4'':   * ''ctgpgpu4'':
       * Servidor PowerEdge R730       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL 24GB [Tesla P40] +      * 2 Nvidia GP102GL 24GB [Tesla P40] (2016) 
-      * Sistema operativo Centos 7.4 +      * Sistema operativo AlmaLinux 9.1 
-          * docker 17.09 y nvidia-docker 1.0.1 +          * Cuda 12.0 
-          * OpenCV 2.4.5 +          * * **Slurm para la gestión de colas de trabajo de uso obligatorio**
-          * Dliv, Caffe, Caffe2 y pycaffe + 
-          Python 3.4cython, easydict, sonnet +  Servidores no cluster de computación HPC[[ centro:servizos:hpc | Cluster de computación HPC ]] 
-          TensorFlow+  Servidores no CESGA: [[ centro:servizos:cesga | Solicitar acceso ]] 
 + 
 +==== Servidores con gráficas de acceso restrinxido ==== 
   * ''ctgpgpu5'':   * ''ctgpgpu5'':
       * Servidor PowerEdge R730       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL 24GB [Tesla P40] +      * 2 tarxeta Nvidia GP102GL [Tesla P40] 
-      * Sistema operativo Ubuntu 16.04 +      * Sistema operativo Ubuntu 22.04 
-          * **Slurm para a xestión de colas de traballo de uso obrigatorio**. +          * Driver Nvidia 560, CUDA versión 12.5
-          * ** Modules para la gestión de versiones de bibliotecas**. +
-          * CUDA versión 9.+
-          * OpenCV 2.4 y 3.4 +
-          * Atlas 3.10.3 +
-          * MAGMA +
-          * TensorFlow +
-          * Caffee+
   * ''ctgpgpu6'':    * ''ctgpgpu6'': 
       * Servidor SIE LADON 4214       * Servidor SIE LADON 4214
Liña 71: Liña 31:
       * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz)        * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) 
       * Nvidia Quadro P6000 24GB (2018)       * Nvidia Quadro P6000 24GB (2018)
-      * Sistema operativo Centos 7.7 +      * Nvidia Quadro RTX8000 48GB (2019) 
-          * Driver Nvidia 418.87.00 para CUDA 10.1 +      * 2 x Nvidia A30 24GB (2020) 
-          Docker 19.03 +      * Sistema operativo Centos 7.9 
-          * [[https://github.com/NVIDIA/nvidia-docker Nvidia-docker  ]]+          * Driver Nvidia 535.86.10 para CUDA 12.2 
 +  ''ctgpgpu9'': 
 +      * Servidor Dell PowerEdge R750 
 +      2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215274/intel-xeon-gold-6326-processor-24m-cache-2-90-ghz.html |Intel Xeon Gold 6326 ]] 
 +      * 128 GB de memoria RAM  
 +      * 2x NVIDIA Ampere A100 de 80 GB 
 +      * Sistema operativo AlmaLinux 8.6 
 +           * Driver NVIDIA 515.48.07 para CUDA 11.7 
 +  * ''ctgpgpu10'': 
 +      * Servidor Dell PowerEdge R750 
 +      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215272/intel-xeon-gold-5317-processor-18m-cache-3-00-ghz.html |Intel Xeon Gold 5317 ]] 
 +      * 128 GB de memoria RAM  
 +      * NVIDIA Ampere A100 de 80 GB 
 +      * Sistema operativo AlmaLinux 8.7 
 +           * Driver NVIDIA 525.60.13 para CUDA 12.0 
 +   * ''ctgpgpu11'': 
 +      * Servidor Gybabyte  G482-Z54 
 +      * 2 procesadores [[ https://www.amd.com/es/products/cpu/amd-epyc-7413 | AMD EPYC 7413 @2,65 GHz 24c ]] 
 +      * 256 GB de memoria RAM 
 +      * 5 x NVIDIA Ampere A100 de 80 GB   
 +      * Sistema operativo AlmaLinux 9.1 
 +           * Driver NVIDIA 520.61.05 para CUDA 11.8 
 +  * ''ctgpgpu12'': 
 +      * Servidor Dell PowerEdge R760 
 +      * 2 procesadores [[ https://ark.intel.com/content/www/xl/es/ark/products/232376.html |Intel Xeon Silver 4410Y ]] 
 +      * 384 GB de memoria RAM  
 +      * 2 x NVIDIA Hopper H100 de 80 GB 
 +      * Sistema operativo AlmaLinux 9.2 
 +           * Driver NVIDIA 555.42.06 para CUDA 12.5
 ===== Alta no servizo ===== ===== Alta no servizo =====
-Todos os usuarios do CITIUS poden acceder a este servizopero para iso deben solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Mentres non o fagan, recibirán unha mensaxe de contrasinal incorrecto.+Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder aos servidoreshai que solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Os usuarios que non teñan permiso de acceso recibirán unha mensaxe de contrasinal incorrecto.
  
 ===== Manual de usuario ===== ===== Manual de usuario =====
Liña 82: Liña 70:
 Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes: Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes:
  
-  * ctgpgpu1.inv.usc.es - 172.16.242.91:1301 +  * ctgpgpu4.inv.usc.es - 172.16.242.201 
-  * ctgpgpu2.inv.usc.es - 172.16.242.92:22 +  * ctgpgpu5.inv.usc.es - 172.16.242.202 
-  * ctgpgpu3.inv.usc.es - 172.16.242.93:22 +  * ctgpgpu6.inv.usc.es - 172.16.242.205 
-  * ctgpgpu4.inv.usc.es - 172.16.242.201:22 +  * ctgpgpu9.inv.usc.es - 172.16.242.94 
-  * ctgpgpu5.inv.usc.es - 172.16.242.202:22+  * ctgpgpu10.inv.usc.es - 172.16.242.95 
 +  * ctgpgpu11.inv.usc.es - 172.16.242.96 
 +  * ctgpgpu12.inv.usc.es - 172.16.242.97
  
 A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[:centro:servizos:vpn:start|VPN]] ou da [[:centro:servizos:pasarela_ssh|parasela SSH]]. A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[:centro:servizos:vpn:start|VPN]] ou da [[:centro:servizos:pasarela_ssh|parasela SSH]].
Liña 99: Liña 89:
 ==== Xestión dos traballos con SLURM ==== ==== Xestión dos traballos con SLURM ====
  
-En ''ctgpgpu2'',en ''ctgpgpu3'' e en ''ctgpgpu5'' hai un xestor de colas instalado para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.+Nos servidores nos que hai un xestor de colas é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.
  
 Para enviar un traballo á cola utilízase o comando ''srun'': Para enviar un traballo á cola utilízase o comando ''srun'':
Liña 105: Liña 95:
   srun programa_cuda argumentos_programa_cuda   srun programa_cuda argumentos_programa_cuda
  
-O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'' (hai dispoñible unha [[centro:ubuntu-12.04-citius:screen|guía en vídeo]] moi sinxela de seguir), e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.+O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'', e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.
  
 Alternativamente, pódese utilizar ''nohup'' e pasar o traballo a segundo plano con ''&''. Neste caso a saída gárdase no arquivo ''nohup.out'': Alternativamente, pódese utilizar ''nohup'' e pasar o traballo a segundo plano con ''&''. Neste caso a saída gárdase no arquivo ''nohup.out'':