Diferencias

Muestra las diferencias entre dos versiones de la página.

--- es:centro:servizos:servidores_de_computacion_gpgpu [2020/10/28 14:10] – fernando.guillen
+++ es:centro:servizos:servidores_de_computacion_gpgpu [2025/02/18 16:13] (actual) – fernando.guillen
@@ Línea 3: / Línea 3: @@
 ===== Descripción del servicio =====
-Servidores con gráficas:
+==== Servidores con gráficas de acceso libre ====
-  * ''ctgpgpu2'':
-    * Servidor Dell Precision R5400
-    * 2 procesadores [[http://ark.intel.com/products/33082/|Intel Xeon E5440]]
-    * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz)
-    * 1 tarjeta Nvidia GK104 [Geforce GTX 680]
-    * Sistema operativo Ubuntu 18.04
-      * Slurm (//de uso obligatorio para la gestión de trabajos//)
-      * CUDA 9.2 (//repositorio oficial de Nvidia//)
-      * Docker-ce 18.06 (//repositorio oficial de Docker//)
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//)
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2
-      * Intel Parallel Studio Professional for C++ 2015 (//¡licencia única, avisa si vas a utilizarlo!//)
-  * ''ctgpgpu3'':
-    * Servidor PowerEdge R720
-    * 1 procesador [[http://ark.intel.com/products/64588|Intel Xeon E52609]]
-    * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz)
-    * Conectado a un cajón de gráficas con:
-      * Gigabyte GeForce GTX Titan 6GB (2014)
-      * Nvidia Titan X Pascal 12GB (2016)
-    * Sistema operativo Ubuntu 18.04
-      * Slurm (//de uso obligatorio para la gestión de trabajos//)
-      * CUDA 9.2 (//repositorio oficial de Nvidia//)
-      * Docker-ce 18.06 (//repositorio oficial de Docker//)
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//)
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2
-      * Intel Parallel Studio Professional for C++ 2015 (//¡licencia única, avisa si vas a utilizarlo!//)
-      * ROS Melodic Morenia (//repositorio oficial de ROS//)
   * ''ctgpgpu4'':
       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL [Tesla P40]
+      * 2 x Nvidia GP102GL 24GB [Tesla P40] (2016)
-      * Sistema operativo Centos 7.4
+      * Sistema operativo AlmaLinux 9.1
-          * docker 17.09 y nvidia-docker 1.0.1
+          * Cuda 12.0
-          * OpenCV 2.4.5
+          * * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
-          * Dliv, Caffe, Caffe2 y pycaffe
-          * Python 3.4: cython, easydict, sonnet
+  * Servidores en el cluster de computación HPC: [[ es:centro:servizos:hpc | Cluster de computación HPC ]]
-          * TensorFlow
+  * Servidores en el CESGA: [[ es:centro:servizos:cesga | Solicitar acceso ]]
+==== Servidores con gráficas de acceso restringido ====
   * ''ctgpgpu5'':
       * Servidor PowerEdge R730
@@ Línea 48: / Línea 24: @@
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
       * 2 tarxeta Nvidia GP102GL [Tesla P40]
-      * Sistema operativo Ubuntu 18.04
+      * Sistema operativo Ubuntu 22.04
-          * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
+          * Driver Nvidia 560, CUDA versión 12.5
-          * ** Modules para la gestión de versiones de bibliotecas**.
-          * CUDA versión 11.0
-          * OpenCV 2.4 y 3.4
-          * Atlas 3.10.3
-          * MAGMA
-          * TensorFlow
-          * Caffee
   * ''ctgpgpu6'':
       * Servidor SIE LADON 4214
@@ Línea 63: / Línea 32: @@
       * Nvidia Quadro P6000 24GB (2018)
       * Nvidia Quadro RTX8000 48GB (2019)
-      * Sistema operativo Centos 7.7
+      * 2 x Nvidia A30 24GB (2020)
-          * Driver Nvidia 418.87.00 para CUDA 10.1
+      * Sistema operativo Centos 7.9
-          * Docker 19.03
+          * Driver Nvidia 535.86.10 para CUDA 12.2
-          * [[https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
+  * ''ctgpgpu9'':
-  * ''ctgpgpu7'':
+      * Servidor Dell PowerEdge R750
-      * Servidor Dell PowerEdge R740
+      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215274/intel-xeon-gold-6326-processor-24m-cache-2-90-ghz.html |Intel Xeon Gold 6326 ]]
-      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193388/intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]]
+      * 128 GB de memoria RAM
-      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)
+      * 2x NVIDIA Ampere A100 de 80 GB
-      * 2 x Nvidia Tesla V100S 32GB (2019)
+      * Sistema operativo AlmaLinux 8.6
-      * Sistema operativo Centos 8.1
+           * Driver NVIDIA 515.48.07 para CUDA 11.7
-          * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
+  * ''ctgpgpu10'':
-          * ** Modules para la gestión de versiones de bibliotecas**.
+      * Servidor Dell PowerEdge R750
-          * Driver Nvidia 440.64.00 para CUDA 10.2
+      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215272/intel-xeon-gold-5317-processor-18m-cache-3-00-ghz.html |Intel Xeon Gold 5317 ]]
-          * Docker 19.03
+      * 128 GB de memoria RAM
-          * [[  https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
+      * NVIDIA Ampere A100 de 80 GB
-  * ''ctgpgpu8'':
+      * Sistema operativo AlmaLinux 8.7
-      * Servidor Dell PowerEdge R740
+           * Driver NVIDIA 525.60.13 para CUDA 12.0
-      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193388/intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]]
+   * ''ctgpgpu11'':
-      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)
+      * Servidor Gybabyte  G482-Z54
-      * 2 x Nvidia Tesla V100S 32GB (2019)
+      * 2 procesadores [[ https://www.amd.com/es/products/cpu/amd-epyc-7413 | AMD EPYC 7413 @2,65 GHz 24c ]]
-      * Sistema operativo Centos 8.1
+      * 256 GB de memoria RAM
-          * **Slurm para la gestión de colas de trabajo de uso obligatorio**
+      * 5 x NVIDIA Ampere A100 de 80 GB
-          * ** Modules para la gestión de versiones de bibliotecas**.
+      * Sistema operativo AlmaLinux 9.1
-          * Driver Nvidia 440.64.00 para CUDA 10.2
+           * Driver NVIDIA 520.61.05 para CUDA 11.8
-          * Docker 19.03
+  * ''ctgpgpu12'':
-          * [[  https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
+      * Servidor Dell PowerEdge R760
+      * 2 procesadores [[ https://ark.intel.com/content/www/xl/es/ark/products/232376.html |Intel Xeon Silver 4410Y ]]
+      * 384 GB de memoria RAM
+      * 2 x NVIDIA Hopper H100 de 80 GB
+      * Sistema operativo AlmaLinux 9.2
+           * Driver NVIDIA 555.42.06 para CUDA 12.5
 ===== Alta en el servicio =====
-Aunque todos los usuarios del CiTIUS pueden acceder a este servicio, no todos los servidores están disponibles permanentemente, por lo que deben solicitarlo previamente a través del [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.
+No todos los servidores están disponibles en todo momento para cualquier uso. Para acceder a los servidores hay que solicitarlo previamente a través del [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de contraseña incorrecta.
 ===== Manual de usuario =====
 ==== Conexión con los servidores ====
-Para conectarse a los servidores, debes hacerlo a través de SSH. El nombre y las direcciones IP de los servidores son las siguientes:
+Para conectarse a los servidores, debes hacerlo usando SSH. El nombre y las direcciones IP de los servidores son las siguientes:
-  * ctgpgpu2.inv.usc.es - 172.16.242.92:22
-  * ctgpgpu3.inv.usc.es - 172.16.242.93:22
-  * ctgpgpu4.inv.usc.es - 172.16.242.201:22
-  * ctgpgpu5.inv.usc.es - 172.16.242.202:22
-  * ctgpgpu6.inv.usc.es - 172.16.242.205:22
-  * ctgpgpu7.inv.usc.es - 172.16.242.207:22
-  * ctgpgpu8.inv.usc.es - 172.16.242.208:22
-La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[:centro:servicios:vpn:start|VPN]] o de la [[:centro:servicios:pasarela_ssh|parasela SSH]].
+  * ctgpgpu4.inv.usc.es - 172.16.242.201
+  * ctgpgpu5.inv.usc.es - 172.16.242.202
+  * ctgpgpu6.inv.usc.es - 172.16.242.205
+  * ctgpgpu9.inv.usc.es - 172.16.242.94
+  * ctgpgpu10.inv.usc.es - 172.16.242.95
+  * ctgpgpu11.inv.usc.es - 172.16.242.96
+  * ctgpgpu12.inv.usc.es - 172.16.242.97
+La conexión solo es posible desde el interior de la red del centro. Para conectarse desde otras localizaciones o desde la red RAI es necesario hacer uso de la [[es:centro:servizos:vpn:start|VPN]] o de la [[es:centro:servizos:pasarela_ssh|parasela SSH]].
 ==== Apagado/encendido de los equipos ====
-Los servidores se apagan para ahorrar energía al no detectar actividad alguna durante una hora. Para encenderlos de nuevo, puedes hacer uso de la [[centro:servicios:encendido_remoto_de_equipos_wake_on_lan|herramienta de encendido remoto]].
+Los servidores se apagan para ahorrar energía si no detectan ninguna actividad durante una hora. Para encenderlos de nuevo, puedes hacer uso de la [[centro:servizos:acendido_remoto_de_equipos_wake_on_lan| herramienta de encendido remoto]].
 Los servidores entienden como actividad:
   * cualquier sesión SSH abierta,
-  * cualquier sesión de screen sin rematar
+  * cualquier sesión de screen sin terminar.
 ==== Gestión de los trabajos con SLURM ====
+En los servidores en los que hay un gestor de colas es obligatorio usarlo para enviar trabajos y así evitar los conflictos entre procesos, ya que no debe haber dos trabajos en ejecución al mismo tiempo.
-En los servidores en los que hay un gestor de colas instalado para enviar trabajos es obligatorio su uso para evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.
+Para enviar un trabajo a la cola se usa el comando ''srun'':
-Para enviar un trabajo a la cola se utiliza el comando ''srun'':
   srun programa_cuda argumentos_programa_cuda
-El proceso ''srun'' espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''screen'' , y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.
+El proceso ''srun'' espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden usar gestores de sesiones de consola como "screen" para poder dejar el trabajo en espera y desconectar la sesión sin preocuparse y recuperar la salida de la consola más adelante.
 Alternativamente, se puede utilizar ''nohup'' y pasar el trabajo a segundo plano con ''&''. En este caso la salida se guarda en el archivo ''nohup.out'':
@@ Línea 137: / Línea 112: @@
 servidore ca_water pablo.qu     R       0:11      1 ctgpgpu2</code>
-También se puede obtener una vista interactiva, actualizada cada segundo, con el comando ''smap'':
+También puede obtenerse una vista interactiva, actualizada cada segundo, con el comando "smap":
   smap -i 1