Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
es:centro:servizos:servidores_de_computacion_gpgpu [2020/10/28 14:10] – fernando.guillen | es:centro:servizos:servidores_de_computacion_gpgpu [2025/02/18 16:13] (actual) – fernando.guillen | ||
---|---|---|---|
Línea 3: | Línea 3: | ||
===== Descripción del servicio ===== | ===== Descripción del servicio ===== | ||
- | Servidores con gráficas: | + | ==== Servidores con gráficas |
- | * '' | ||
- | * Servidor Dell Precision R5400 | ||
- | * 2 procesadores [[http:// | ||
- | * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz) | ||
- | * 1 tarjeta Nvidia GK104 [Geforce GTX 680] | ||
- | * Sistema operativo Ubuntu 18.04 | ||
- | * Slurm (//de uso obligatorio para la gestión de trabajos//) | ||
- | * CUDA 9.2 (// | ||
- | * Docker-ce 18.06 (// | ||
- | * Nvidia-docker 2.0.3 (// | ||
- | * Nvidia cuDNN v7.2.1 for CUDA 9.2 | ||
- | * Intel Parallel Studio Professional for C++ 2015 (// | ||
- | * '' | ||
- | * Servidor PowerEdge R720 | ||
- | * 1 procesador [[http:// | ||
- | * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz) | ||
- | * Conectado a un cajón de gráficas con: | ||
- | * Gigabyte GeForce GTX Titan 6GB (2014) | ||
- | * Nvidia Titan X Pascal 12GB (2016) | ||
- | * Sistema operativo Ubuntu 18.04 | ||
- | * Slurm (//de uso obligatorio para la gestión de trabajos//) | ||
- | * CUDA 9.2 (// | ||
- | * Docker-ce 18.06 (// | ||
- | * Nvidia-docker 2.0.3 (// | ||
- | * Nvidia cuDNN v7.2.1 for CUDA 9.2 | ||
- | * Intel Parallel Studio Professional for C++ 2015 (// | ||
- | * ROS Melodic Morenia (// | ||
* '' | * '' | ||
* Servidor PowerEdge R730 | * Servidor PowerEdge R730 | ||
* 2 procesadores | * 2 procesadores | ||
* 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | ||
- | * 2 tarxeta | + | * 2 x Nvidia GP102GL |
- | * Sistema operativo | + | * Sistema operativo |
- | * docker 17.09 y nvidia-docker 1.0.1 | + | * Cuda 12.0 |
- | * OpenCV 2.4.5 | + | * * **Slurm para la gestión de colas de trabajo de uso obligatorio**. |
- | * Dliv, Caffe, Caffe2 y pycaffe | + | |
- | * Python 3.4: cython, easydict, sonnet | + | * Servidores en el cluster de computación HPC: [[ es: |
- | * TensorFlow | + | * Servidores en el CESGA: [[ es: |
+ | |||
+ | ==== Servidores con gráficas de acceso restringido ==== | ||
* '' | * '' | ||
* Servidor PowerEdge R730 | * Servidor PowerEdge R730 | ||
Línea 48: | Línea 24: | ||
* 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | ||
* 2 tarxeta Nvidia GP102GL [Tesla P40] | * 2 tarxeta Nvidia GP102GL [Tesla P40] | ||
- | * Sistema operativo Ubuntu | + | * Sistema operativo Ubuntu |
- | * **Slurm para la gestión de colas de trabajo de uso obligatorio**. | + | * Driver Nvidia 560, CUDA versión |
- | * ** Modules para la gestión de versiones de bibliotecas**. | + | |
- | * CUDA versión | + | |
- | * OpenCV 2.4 y 3.4 | + | |
- | * Atlas 3.10.3 | + | |
- | * MAGMA | + | |
- | * TensorFlow | + | |
- | * Caffee | + | |
* '' | * '' | ||
* Servidor SIE LADON 4214 | * Servidor SIE LADON 4214 | ||
Línea 63: | Línea 32: | ||
* Nvidia Quadro P6000 24GB (2018) | * Nvidia Quadro P6000 24GB (2018) | ||
* Nvidia Quadro RTX8000 48GB (2019) | * Nvidia Quadro RTX8000 48GB (2019) | ||
- | * Sistema operativo Centos 7.7 | + | |
- | * Driver Nvidia | + | |
- | * Docker 19.03 | + | * Driver Nvidia |
- | * [[https:// | + | * '' |
- | * '' | + | * Servidor Dell PowerEdge |
- | * Servidor Dell PowerEdge | + | * 2 procesadores [[ https:// |
- | * 2 procesadores | + | * 128 GB de memoria RAM |
- | * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz) | + | * 2x NVIDIA Ampere A100 de 80 GB |
- | * 2 x Nvidia Tesla V100S 32GB (2019) | + | * Sistema operativo |
- | * Sistema operativo | + | |
- | * **Slurm para la gestión de colas de trabajo de uso obligatorio**. | + | * '' |
- | * ** Modules para la gestión de versiones de bibliotecas**. | + | * Servidor Dell PowerEdge |
- | | + | * 2 procesadores [[ https:// |
- | * Docker 19.03 | + | * 128 GB de memoria RAM |
- | * [[ https:// | + | * NVIDIA Ampere A100 de 80 GB |
- | * '' | + | * Sistema operativo |
- | * Servidor Dell PowerEdge | + | |
- | * 2 procesadores | + | * '' |
- | * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz) | + | |
- | * 2 x Nvidia Tesla V100S 32GB (2019) | + | * 2 procesadores [[ https:// |
- | * Sistema operativo | + | |
- | | + | |
- | * ** Modules para la gestión | + | |
- | * Driver | + | |
- | * Docker 19.03 | + | * '' |
- | * [[ https://github.com/NVIDIA/nvidia-docker | + | * Servidor Dell PowerEdge R760 |
+ | * 2 procesadores | ||
+ | * 384 GB de memoria RAM | ||
+ | * 2 x NVIDIA Hopper H100 de 80 GB | ||
+ | * Sistema operativo AlmaLinux 9.2 | ||
+ | * Driver NVIDIA 555.42.06 para CUDA 12.5 | ||
===== Alta en el servicio ===== | ===== Alta en el servicio ===== | ||
- | Aunque | + | No todos los servidores están disponibles en todo momento para cualquier uso. Para acceder a los servidores |
===== Manual de usuario ===== | ===== Manual de usuario ===== | ||
==== Conexión con los servidores ==== | ==== Conexión con los servidores ==== | ||
- | Para conectarse a los servidores, debes hacerlo | + | Para conectarse a los servidores, debes hacerlo |
- | * ctgpgpu2.inv.usc.es - 172.16.242.92: | + | |
- | * ctgpgpu3.inv.usc.es - 172.16.242.93: | + | |
- | * ctgpgpu4.inv.usc.es - 172.16.242.201: | + | |
- | * ctgpgpu5.inv.usc.es - 172.16.242.202: | + | |
- | * ctgpgpu6.inv.usc.es - 172.16.242.205: | + | |
- | * ctgpgpu7.inv.usc.es - 172.16.242.207: | + | |
- | * ctgpgpu8.inv.usc.es - 172.16.242.208: | + | |
- | La conexión solo está disponible | + | * ctgpgpu4.inv.usc.es - 172.16.242.201 |
+ | * ctgpgpu5.inv.usc.es - 172.16.242.202 | ||
+ | * ctgpgpu6.inv.usc.es - 172.16.242.205 | ||
+ | * ctgpgpu9.inv.usc.es - 172.16.242.94 | ||
+ | * ctgpgpu10.inv.usc.es - 172.16.242.95 | ||
+ | * ctgpgpu11.inv.usc.es - 172.16.242.96 | ||
+ | * ctgpgpu12.inv.usc.es - 172.16.242.97 | ||
+ | |||
+ | La conexión solo es posible | ||
==== Apagado/ | ==== Apagado/ | ||
- | Los servidores se apagan para ahorrar energía | + | Los servidores se apagan para ahorrar energía |
Los servidores entienden como actividad: | Los servidores entienden como actividad: | ||
+ | |||
* cualquier sesión SSH abierta, | * cualquier sesión SSH abierta, | ||
- | * cualquier sesión de screen sin rematar | + | * cualquier sesión de screen sin terminar. |
==== Gestión de los trabajos con SLURM ==== | ==== Gestión de los trabajos con SLURM ==== | ||
+ | En los servidores en los que hay un gestor de colas es obligatorio usarlo para enviar trabajos y así evitar los conflictos entre procesos, ya que no debe haber dos trabajos en ejecución al mismo tiempo. | ||
- | En los servidores en los que hay un gestor de colas instalado para enviar trabajos es obligatorio su uso para evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo. | + | Para enviar un trabajo a la cola se usa el comando '' |
- | + | ||
- | Para enviar un trabajo a la cola se utiliza | + | |
srun programa_cuda argumentos_programa_cuda | srun programa_cuda argumentos_programa_cuda | ||
- | El proceso '' | + | El proceso '' |
Alternativamente, | Alternativamente, | ||
Línea 137: | Línea 112: | ||
8 servidore ca_water pablo.qu | 8 servidore ca_water pablo.qu | ||
- | También | + | También puede obtenerse |
smap -i 1 | smap -i 1 | ||
- |