Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

--- centro:servizos:servidores_de_computacion_gpgpu [2019/11/14 10:47] – fernando.guillen
+++ centro:servizos:servidores_de_computacion_gpgpu [2024/09/09 14:53] (actual) – jorge.suarez
@@ Liña 3: / Liña 3: @@
 ===== Descrición do servizo =====
-Seis servidores con gráficas:
+==== Servidores con gráficas de acceso libre ====
-  * ''ctgpgpu1'':
-    * Servidor Supermicro X8DTG-D
-    * 2 procesadores [[http://ark.intel.com/products/40200|Intel Xeon E5520]]
-    * 10 GB de memoria RAM (5 DIMM a 1333 MHz)
-    * 2 tarxetas Nvidia GF100 [Tesla S2050]
-      * Unhas das tarxetas atópase temporalmente noutro servidor para unhas probas. Polo tanto, polo de agora só hai unha tarxeta dispoñible.
-    * Sistema operativo Ubuntu 10.04
-      * CUDA versión 5.0
-  * ''ctgpgpu2''
-    * Servidor Dell Precision R5400
-    * 2 procesadores [[http://ark.intel.com/products/33082/|Intel Xeon E5440]]
-    * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz)
-    * 1 tarxeta Nvidia GK104 [Geforce GTX 680]
-    * Sistema operativo Ubuntu 18.04
-      * Slurm (//de uso obrigatorio para a xestión de traballos//)
-      * CUDA 9.2 (//repositorio oficial de Nvidia//)
-      * Docker-ce 18.06 (//repositorio oficial de Docker//)
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//)
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2
-      * Intel Parallel Studio Professional for C++ 2015 (//licenza única, avisa se vas usalo!//)
-  * ''ctgpgpu3'':
-    * Servidor PowerEdge R720
-    * 1 procesador [[http://ark.intel.com/products/64588|Intel Xeon E52609]]
-    * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz)
-    * Conectado a un caixón de gráficas con:
-      * Gigabyte GeForce GTX Titan 6GB (2014)
-      * Nvidia Titan X Pascal 12GB (2016)
-    * Sistema operativo Ubuntu 18.04
-      * Slurm (//de uso obrigatorio para a xestión de traballos//)
-      * CUDA 9.2 (//repositorio oficial de Nvidia//)
-      * Docker-ce 18.06 (//repositorio oficial de Docker//)
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//)
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2
-      * Intel Parallel Studio Professional for C++ 2015 (//licenza única, avisa se vas usalo!//)
-      * ROS Melodic Morenia (//repositorio oficial de ROS//)
   * ''ctgpgpu4'':
       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL 24GB [Tesla P40]
+      * 2 x Nvidia GP102GL 24GB [Tesla P40] (2016)
-      * Sistema operativo Centos 7.4
+      * Sistema operativo AlmaLinux 9.1
-          * docker 17.09 y nvidia-docker 1.0.1
+          * Cuda 12.0
-          * OpenCV 2.4.5
+          * * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
-          * Dliv, Caffe, Caffe2 y pycaffe
-          * Python 3.4: cython, easydict, sonnet
+  * Servidores no cluster de computación HPC: [[ centro:servizos:hpc | Cluster de computación HPC ]]
-          * TensorFlow
+  * Servidores no CESGA: [[ centro:servizos:cesga | Solicitar acceso ]]
+==== Servidores con gráficas de acceso restrinxido ====
   * ''ctgpgpu5'':
       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL 24GB [Tesla P40]
+      * 2 tarxeta Nvidia GP102GL [Tesla P40]
-      * Sistema operativo Ubuntu 16.04
+      * Sistema operativo Ubuntu 22.04
-          * **Slurm para a xestión de colas de traballo de uso obrigatorio**.
+          * Driver Nvidia 560, CUDA versión 12.5
-          * ** Modules para la gestión de versiones de bibliotecas**.
-          * CUDA versión 9.0
-          * OpenCV 2.4 y 3.4
-          * Atlas 3.10.3
-          * MAGMA
-          * TensorFlow
-          * Caffee
   * ''ctgpgpu6'':
       * Servidor SIE LADON 4214
@@ Liña 71: / Liña 31: @@
       * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz)
       * Nvidia Quadro P6000 24GB (2018)
-      * Sistema operativo Centos 7.7
+      * Nvidia Quadro RTX8000 48GB (2019)
-          * Driver Nvidia 418.87.00 para CUDA 10.1
+      * 2 x Nvidia A30 24GB (2020)
-          * Docker 19.03
+      * Sistema operativo Centos 7.9
-          * [[https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
+          * Driver Nvidia 535.86.10 para CUDA 12.2
+  * ''ctgpgpu9'':
+      * Servidor Dell PowerEdge R750
+      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215274/intel-xeon-gold-6326-processor-24m-cache-2-90-ghz.html |Intel Xeon Gold 6326 ]]
+      * 128 GB de memoria RAM
+      * 2x NVIDIA Ampere A100 de 80 GB
+      * Sistema operativo AlmaLinux 8.6
+           * Driver NVIDIA 515.48.07 para CUDA 11.7
+  * ''ctgpgpu10'':
+      * Servidor Dell PowerEdge R750
+      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215272/intel-xeon-gold-5317-processor-18m-cache-3-00-ghz.html |Intel Xeon Gold 5317 ]]
+      * 128 GB de memoria RAM
+      * NVIDIA Ampere A100 de 80 GB
+      * Sistema operativo AlmaLinux 8.7
+           * Driver NVIDIA 525.60.13 para CUDA 12.0
+   * ''ctgpgpu11'':
+      * Servidor Gybabyte  G482-Z54
+      * 2 procesadores [[ https://www.amd.com/es/products/cpu/amd-epyc-7413 | AMD EPYC 7413 @2,65 GHz 24c ]]
+      * 256 GB de memoria RAM
+      * 5 x NVIDIA Ampere A100 de 80 GB
+      * Sistema operativo AlmaLinux 9.1
+           * Driver NVIDIA 520.61.05 para CUDA 11.8
+  * ''ctgpgpu12'':
+      * Servidor Dell PowerEdge R760
+      * 2 procesadores [[ https://ark.intel.com/content/www/xl/es/ark/products/232376.html |Intel Xeon Silver 4410Y ]]
+      * 384 GB de memoria RAM
+      * 2 x NVIDIA Hopper H100 de 80 GB
+      * Sistema operativo AlmaLinux 9.2
+           * Driver NVIDIA 555.42.06 para CUDA 12.5
 ===== Alta no servizo =====
-Todos os usuarios do CITIUS poden acceder a este servizo, pero para iso deben solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Mentres non o fagan, recibirán unha mensaxe de contrasinal incorrecto.
+Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder aos servidores, hai que solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Os usuarios que non teñan permiso de acceso recibirán unha mensaxe de contrasinal incorrecto.
 ===== Manual de usuario =====
@@ Liña 82: / Liña 70: @@
 Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes:
-  * ctgpgpu1.inv.usc.es - 172.16.242.91:1301
+  * ctgpgpu4.inv.usc.es - 172.16.242.201
-  * ctgpgpu2.inv.usc.es - 172.16.242.92:22
+  * ctgpgpu5.inv.usc.es - 172.16.242.202
-  * ctgpgpu3.inv.usc.es - 172.16.242.93:22
+  * ctgpgpu6.inv.usc.es - 172.16.242.205
-  * ctgpgpu4.inv.usc.es - 172.16.242.201:22
+  * ctgpgpu9.inv.usc.es - 172.16.242.94
-  * ctgpgpu5.inv.usc.es - 172.16.242.202:22
+  * ctgpgpu10.inv.usc.es - 172.16.242.95
+  * ctgpgpu11.inv.usc.es - 172.16.242.96
+  * ctgpgpu12.inv.usc.es - 172.16.242.97
 A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[:centro:servizos:vpn:start|VPN]] ou da [[:centro:servizos:pasarela_ssh|parasela SSH]].
@@ Liña 99: / Liña 89: @@
 ==== Xestión dos traballos con SLURM ====
-En ''ctgpgpu2'',en ''ctgpgpu3'' e en ''ctgpgpu5'' hai un xestor de colas instalado para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.
+Nos servidores nos que hai un xestor de colas é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.
 Para enviar un traballo á cola utilízase o comando ''srun'':
@@ Liña 105: / Liña 95: @@
   srun programa_cuda argumentos_programa_cuda
-O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'' (hai dispoñible unha [[centro:ubuntu-12.04-citius:screen|guía en vídeo]] moi sinxela de seguir), e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.
+O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'', e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.
 Alternativamente, pódese utilizar ''nohup'' e pasar o traballo a segundo plano con ''&''. Neste caso a saída gárdase no arquivo ''nohup.out'':