Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| es:centro:servizos:servidores_de_computacion_gpgpu [2020/03/31 12:02] – [Descripción del servicio] fernando.guillen | es:centro:servizos:servidores_de_computacion_gpgpu [2025/02/18 16:13] (actual) – fernando.guillen | ||
|---|---|---|---|
| Línea 3: | Línea 3: | ||
| ===== Descripción del servicio ===== | ===== Descripción del servicio ===== | ||
| - | Servidores con gráficas: | + | ==== Servidores con gráficas |
| - | * '' | ||
| - | * Servidor Supermicro X8DTG-D | ||
| - | * 2 procesadores [[http:// | ||
| - | * 10 GB de memoria RAM (5 DIMM a 1333 MHz) | ||
| - | * 2 tarjetas Nvidia GF100 [Tesla S2050] | ||
| - | * Algunas de las tarjetas se encuentra temporalmente en otro servidor para unas pruebas. Por lo tanto, de momento sólo hay una tarjeta disponible. | ||
| - | * Sistema operativo Ubuntu 10.04 | ||
| - | * CUDA versión 5.0 | ||
| - | * '' | ||
| - | * Servidor Dell Precision R5400 | ||
| - | * 2 procesadores [[http:// | ||
| - | * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz) | ||
| - | * 1 tarjeta Nvidia GK104 [Geforce GTX 680] | ||
| - | * Sistema operativo Ubuntu 18.04 | ||
| - | * Slurm (//de uso obligatorio para la gestión de trabajos//) | ||
| - | * CUDA 9.2 (// | ||
| - | * Docker-ce 18.06 (// | ||
| - | * Nvidia-docker 2.0.3 (// | ||
| - | * Nvidia cuDNN v7.2.1 for CUDA 9.2 | ||
| - | * Intel Parallel Studio Professional for C++ 2015 (// | ||
| - | * '' | ||
| - | * Servidor PowerEdge R720 | ||
| - | * 1 procesador [[http:// | ||
| - | * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz) | ||
| - | * Conectado a un cajón de gráficas con: | ||
| - | * Gigabyte GeForce GTX Titan 6GB (2014) | ||
| - | * Nvidia Titan X Pascal 12GB (2016) | ||
| - | * Sistema operativo Ubuntu 18.04 | ||
| - | * Slurm (//de uso obligatorio para la gestión de trabajos//) | ||
| - | * CUDA 9.2 (// | ||
| - | * Docker-ce 18.06 (// | ||
| - | * Nvidia-docker 2.0.3 (// | ||
| - | * Nvidia cuDNN v7.2.1 for CUDA 9.2 | ||
| - | * Intel Parallel Studio Professional for C++ 2015 (// | ||
| - | * ROS Melodic Morenia (// | ||
| * '' | * '' | ||
| * Servidor PowerEdge R730 | * Servidor PowerEdge R730 | ||
| * 2 procesadores | * 2 procesadores | ||
| * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | ||
| - | * 2 tarxeta | + | * 2 x Nvidia GP102GL |
| - | * Sistema operativo | + | * Sistema operativo |
| - | * docker 17.09 y nvidia-docker 1.0.1 | + | * Cuda 12.0 |
| - | * OpenCV 2.4.5 | + | * * **Slurm para la gestión de colas de trabajo de uso obligatorio**. |
| - | * Dliv, Caffe, Caffe2 y pycaffe | + | |
| - | * Python 3.4: cython, easydict, sonnet | + | * Servidores en el cluster de computación HPC: [[ es: |
| - | * TensorFlow | + | * Servidores en el CESGA: [[ es: |
| + | |||
| + | ==== Servidores con gráficas de acceso restringido ==== | ||
| * '' | * '' | ||
| * Servidor PowerEdge R730 | * Servidor PowerEdge R730 | ||
| Línea 56: | Línea 24: | ||
| * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | ||
| * 2 tarxeta Nvidia GP102GL [Tesla P40] | * 2 tarxeta Nvidia GP102GL [Tesla P40] | ||
| - | * Sistema operativo Ubuntu | + | * Sistema operativo Ubuntu |
| - | * **Slurm para a xestión de colas de traballo de uso obrigatorio**. | + | * Driver Nvidia 560, CUDA versión |
| - | * ** Modules para la gestión de versiones de bibliotecas**. | + | |
| - | * CUDA versión | + | |
| - | * OpenCV 2.4 y 3.4 | + | |
| - | * Atlas 3.10.3 | + | |
| - | * MAGMA | + | |
| - | * TensorFlow | + | |
| - | * Caffee | + | |
| * '' | * '' | ||
| * Servidor SIE LADON 4214 | * Servidor SIE LADON 4214 | ||
| Línea 70: | Línea 31: | ||
| * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) | * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) | ||
| * Nvidia Quadro P6000 24GB (2018) | * Nvidia Quadro P6000 24GB (2018) | ||
| - | * Sistema operativo Centos 7.7 | + | |
| - | * Driver Nvidia | + | * 2 x Nvidia A30 24GB (2020) |
| - | * Docker 19.03 | + | |
| - | * [[https://github.com/ | + | * Driver Nvidia |
| + | * '' | ||
| + | * Servidor Dell PowerEdge R750 | ||
| + | | ||
| + | * 128 GB de memoria RAM | ||
| + | * 2x NVIDIA | ||
| + | * Sistema operativo AlmaLinux 8.6 | ||
| + | * Driver NVIDIA 515.48.07 para CUDA 11.7 | ||
| + | * '' | ||
| + | * Servidor Dell PowerEdge R750 | ||
| + | * 2 procesadores [[ https:// | ||
| + | * 128 GB de memoria RAM | ||
| + | * NVIDIA Ampere A100 de 80 GB | ||
| + | * Sistema operativo AlmaLinux 8.7 | ||
| + | * Driver NVIDIA 525.60.13 para CUDA 12.0 | ||
| + | * '' | ||
| + | * Servidor Gybabyte | ||
| + | * 2 procesadores [[ https:// | ||
| + | * 256 GB de memoria RAM | ||
| + | * 5 x NVIDIA Ampere A100 de 80 GB | ||
| + | * Sistema operativo AlmaLinux 9.1 | ||
| + | * Driver NVIDIA 520.61.05 para CUDA 11.8 | ||
| + | * '' | ||
| + | * Servidor Dell PowerEdge R760 | ||
| + | * 2 procesadores [[ https:// | ||
| + | * 384 GB de memoria RAM | ||
| + | * 2 x NVIDIA Hopper H100 de 80 GB | ||
| + | * Sistema operativo AlmaLinux 9.2 | ||
| + | * Driver NVIDIA 555.42.06 para CUDA 12.5 | ||
| ===== Alta en el servicio ===== | ===== Alta en el servicio ===== | ||
| - | Todos los usuarios del CiTIUS pueden | + | No todos los servidores están disponibles en todo momento para cualquier uso. Para acceder a los servidores hay que solicitarlo previamente a través del [[https:// |
| ===== Manual de usuario ===== | ===== Manual de usuario ===== | ||
| ==== Conexión con los servidores ==== | ==== Conexión con los servidores ==== | ||
| - | Para conectarse a los servidores, debes hacerlo | + | Para conectarse a los servidores, debes hacerlo |
| - | * ctgpgpu1.inv.usc.es - 172.16.242.91: | + | |
| - | * ctgpgpu2.inv.usc.es - 172.16.242.92: | + | |
| - | * ctgpgpu3.inv.usc.es - 172.16.242.93: | + | |
| - | * ctgpgpu4.inv.usc.es - 172.16.242.201: | + | |
| - | * ctgpgpu5.inv.usc.es - 172.16.242.202: | + | |
| - | La conexión solo está disponible | + | * ctgpgpu4.inv.usc.es - 172.16.242.201 |
| + | * ctgpgpu5.inv.usc.es - 172.16.242.202 | ||
| + | * ctgpgpu6.inv.usc.es - 172.16.242.205 | ||
| + | * ctgpgpu9.inv.usc.es - 172.16.242.94 | ||
| + | * ctgpgpu10.inv.usc.es - 172.16.242.95 | ||
| + | * ctgpgpu11.inv.usc.es - 172.16.242.96 | ||
| + | * ctgpgpu12.inv.usc.es - 172.16.242.97 | ||
| + | |||
| + | La conexión solo es posible | ||
| ==== Apagado/ | ==== Apagado/ | ||
| - | Los servidores se apagan para ahorrar energía | + | Los servidores se apagan para ahorrar energía |
| Los servidores entienden como actividad: | Los servidores entienden como actividad: | ||
| + | |||
| * cualquier sesión SSH abierta, | * cualquier sesión SSH abierta, | ||
| - | * cualquier sesión de screen sin rematar | + | * cualquier sesión de screen sin terminar. |
| ==== Gestión de los trabajos con SLURM ==== | ==== Gestión de los trabajos con SLURM ==== | ||
| + | En los servidores en los que hay un gestor de colas es obligatorio usarlo para enviar trabajos y así evitar los conflictos entre procesos, ya que no debe haber dos trabajos en ejecución al mismo tiempo. | ||
| - | En '' | + | Para enviar un trabajo a la cola se usa el comando '' |
| - | + | ||
| - | Para enviar un trabajo a la cola se utiliza | + | |
| srun programa_cuda argumentos_programa_cuda | srun programa_cuda argumentos_programa_cuda | ||
| - | El proceso '' | + | El proceso '' |
| Alternativamente, | Alternativamente, | ||
| Línea 120: | Línea 112: | ||
| 8 servidore ca_water pablo.qu | 8 servidore ca_water pablo.qu | ||
| - | También | + | También puede obtenerse |
| smap -i 1 | smap -i 1 | ||
| - | |||