LDAP: couldn't connect to LDAP server
Diferenzas
Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.
Both sides previous revisionPrevious revisionNext revision | Previous revisionLast revisionBoth sides next revision | ||
centro:servizos:servidores_de_computacion_gpgpu [2018/09/05 17:50] – [Descrición do servizo] jorge.suarez | centro:servizos:servidores_de_computacion_gpgpu [2023/11/21 11:13] – [Servidores con gráficas de acceso restrinxido] fernando.guillen | ||
---|---|---|---|
Liña 3: | Liña 3: | ||
===== Descrición do servizo ===== | ===== Descrición do servizo ===== | ||
- | Cinco servidores | + | ==== Servidores |
- | * '' | ||
- | * Servidor Supermicro X8DTG-D | ||
- | * 2 procesadores [[http:// | ||
- | * 10 GB de memoria RAM (5 DIMM a 1333 MHz) | ||
- | * 2 tarxetas Nvidia GF100 [Tesla S2050] | ||
- | * Unhas das tarxetas atópase temporalmente noutro servidor para unhas probas. Polo tanto, polo de agora só hai unha tarxeta dispoñible. | ||
- | * Sistema operativo Ubuntu 10.04 | ||
- | * CUDA versión 5.0 | ||
- | * '' | ||
- | * Servidor Dell Precision R5400 | ||
- | * 2 procesadores [[http:// | ||
- | * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz) | ||
- | * 1 tarxeta Nvidia GK104 [Geforce GTX 680] | ||
- | * Sistema operativo Ubuntu 18.04 | ||
- | * Slurm de uso obrigatorio para a xestión de traballos | ||
- | * CUDA 9.2 del repositorio oficial de Nvidia | ||
- | * Docker-ce 18.06 del repositorio oficial de Docker | ||
- | * Nvidia-docker 2.0.3 del repositorio oficial de Nvidia | ||
- | * Posibles instalaciones en el futuro: | ||
- | * OpenBLAS | ||
- | * NVIDIA cuDNN v4 Release Candidate for CUDA 7 and later (en ''/ | ||
- | * NVIDIA DIGITS 3.0.0 | ||
- | * Lapack 3.5.0 | ||
- | * Magma 1.7.0 (compilado con OpenBLAS) | ||
- | * Caffe git@03a84bf (cercana a 1.0 rc-2, compilado con OpenBLAS e soporte cuDNN, en ''/ | ||
- | * Intel Parallel Studio Professional for C++ 2015 (licenza única, avisa se vas usalo!) | ||
- | * '' | ||
- | * Servidor PowerEdge R720 | ||
- | * 1 procesador [[http:// | ||
- | * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz) | ||
- | * Conectado a un caixón de gráficas con: | ||
- | * Gigabyte GeForce GTX Titan 6GB (2014) | ||
- | * Nvidia Titan X Pascal 12GB (2016) | ||
- | * Nvidia Titan Xp 12GB (2017) | ||
- | * Nvidia Quadro P6000 24GB (2018) | ||
- | * Sistema operativo Ubuntu 14.04 | ||
- | * **Slurm para a xestión de colas de traballo de uso obrigatorio**. | ||
- | * CUDA versión 8.0 | ||
- | * NVIDIA cuDNN v5 for CUDA 7.5 (en ''/ | ||
- | * Cudarray (compilado usando cuDNN, versión de junio de 2016) | ||
- | * Magma 1.4.1 beta | ||
- | * Intel Parallel Studio Professional for C++ 2015 (licenza única, avisa se vas usalo!) | ||
* '' | * '' | ||
* Servidor PowerEdge R730 | * Servidor PowerEdge R730 | ||
* 2 procesadores | * 2 procesadores | ||
* 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | ||
- | * 2 tarxeta | + | * 2 x Nvidia GP102GL 24GB [Tesla P40] (2016) |
- | * Sistema operativo | + | * Sistema operativo |
- | * docker 17.09 y nvidia-docker 1.0.1 | + | * Cuda 12.0 |
- | * OpenCV 2.4.5 | + | * * **Slurm para la gestión de colas de trabajo de uso obligatorio**. |
- | * Dliv, Caffe, Caffe2 y pycaffe | + | |
- | * Python 3.4: cython, easydict, sonnet | + | * Servidores no cluster de computación HPC: [[ centro: |
- | * TensorFlow | + | * Servidores no CESGA: [[ centro: |
+ | |||
+ | ==== Servidores con gráficas de acceso restrinxido ==== | ||
* '' | * '' | ||
* Servidor PowerEdge R730 | * Servidor PowerEdge R730 | ||
* 2 procesadores | * 2 procesadores | ||
* 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz) | ||
- | * 2 tarxeta Nvidia GP102GL | + | * 2 tarxeta Nvidia GP102GL [Tesla P40] |
- | * Sistema operativo Ubuntu | + | * Sistema operativo Ubuntu |
- | * **Slurm para a xestión | + | * **Slurm para la gestión |
* ** Modules para la gestión de versiones de bibliotecas**. | * ** Modules para la gestión de versiones de bibliotecas**. | ||
- | * CUDA versión | + | * Driver Nvidia 450.119.03 para CUDA versión |
* OpenCV 2.4 y 3.4 | * OpenCV 2.4 y 3.4 | ||
* Atlas 3.10.3 | * Atlas 3.10.3 | ||
Liña 72: | Liña 33: | ||
* TensorFlow | * TensorFlow | ||
* Caffee | * Caffee | ||
- | + | * '' | |
+ | * Servidor SIE LADON 4214 | ||
+ | * 2 procesadores | ||
+ | * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) | ||
+ | * Nvidia Quadro P6000 24GB (2018) | ||
+ | * Nvidia Quadro RTX8000 48GB (2019) | ||
+ | * 2 x Nvidia A30 24GB (2020) | ||
+ | * Sistema operativo Centos 7.9 | ||
+ | * Driver Nvidia 520.61.05 para CUDA 11.8 | ||
+ | * '' | ||
+ | * Servidor Dell PowerEdge R750 | ||
+ | * 2 procesadores [[ https:// | ||
+ | * 128 GB de memoria RAM | ||
+ | * 2x NVIDIA Ampere A100 de 80 GB | ||
+ | * Sistema operativo AlmaLinux 8.6 | ||
+ | * Driver NVIDIA 515.48.07 para CUDA 11.7 | ||
+ | * '' | ||
+ | * Servidor Dell PowerEdge R750 | ||
+ | * 2 procesadores [[ https:// | ||
+ | * 128 GB de memoria RAM | ||
+ | * NVIDIA Ampere A100 de 80 GB | ||
+ | * Sistema operativo AlmaLinux 8.7 | ||
+ | * Driver NVIDIA 525.60.13 para CUDA 12.0 | ||
+ | * '' | ||
+ | * Servidor Gybabyte | ||
+ | * 2 procesadores [[ https:// | ||
+ | * 256 GB de memoria RAM | ||
+ | * 5 x NVIDIA Ampere A100 de 80 GB | ||
+ | * Sistema operativo AlmaLinux 9.1 | ||
+ | * Driver NVIDIA 520.61.05 para CUDA 11.8 | ||
+ | * '' | ||
+ | * Servidor Dell PowerEdge R760 | ||
+ | * 2 procesadores [[ https:// | ||
+ | * 384 GB de memoria RAM | ||
+ | * 2 x NVIDIA Hopper H100 de 80 GB | ||
+ | * Sistema operativo AlmaLinux 9.2 | ||
+ | * Driver NVIDIA 535.104.12 para CUDA 12.2 | ||
===== Alta no servizo ===== | ===== Alta no servizo ===== | ||
- | Todos os usuarios do CITIUS poden acceder | + | Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder |
===== Manual de usuario ===== | ===== Manual de usuario ===== | ||
Liña 81: | Liña 77: | ||
Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes: | Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes: | ||
- | * ctgpgpu1.inv.usc.es - 172.16.242.91: | ||
- | * ctgpgpu2.inv.usc.es - 172.16.242.92: | ||
- | * ctgpgpu3.inv.usc.es - 172.16.242.93: | ||
* ctgpgpu4.inv.usc.es - 172.16.242.201: | * ctgpgpu4.inv.usc.es - 172.16.242.201: | ||
- | * ctgpgpu5.inv.usc.es - 172.16.242.201:22 | + | * ctgpgpu5.inv.usc.es - 172.16.242.202:22 |
+ | * ctgpgpu6.inv.usc.es - 172.16.242.205: | ||
+ | * ctgpgpu9.inv.usc.es - 172.16.242.94: | ||
+ | * ctgpgpu10.inv.usc.es - 172.16.242.95: | ||
+ | * ctgpgpu11.inv.usc.es - 172.16.242.96: | ||
+ | * ctgpgpu12.inv.usc.es - 172.16.242.97:22 | ||
A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[: | A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[: | ||
Liña 98: | Liña 96: | ||
==== Xestión dos traballos con SLURM ==== | ==== Xestión dos traballos con SLURM ==== | ||
- | En '' | + | Nos servidores nos que hai un xestor de colas é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo. |
Para enviar un traballo á cola utilízase o comando '' | Para enviar un traballo á cola utilízase o comando '' | ||
Liña 104: | Liña 102: | ||
srun programa_cuda argumentos_programa_cuda | srun programa_cuda argumentos_programa_cuda | ||
- | O proceso '' | + | O proceso '' |
Alternativamente, | Alternativamente, |