| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| centro:servizos:hpc [2023/03/27 10:39] – [Envío de un trabajo al sistema de colas] fernando.guillen | centro:servizos:hpc [2025/12/05 10:01] (actual) – [Particiones] fernando.guillen |
|---|
| * 9 servidores para cómputo general. | * 9 servidores para cómputo general. |
| * 1 "fat node" para trabajos que requieran mucha memoria. | * 1 "fat node" para trabajos que requieran mucha memoria. |
| * 4 servidores para computo con GPU. | * 6 servidores para computo con GPU. |
| | |
| Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ | Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ |
| | hpc-node[3-9] | Dell R740 | 2 x Intel Xeon Gold 5220R @2,2 GHz (24c) | 192 GB | - | | | hpc-node[3-9] | Dell R740 | 2 x Intel Xeon Gold 5220R @2,2 GHz (24c) | 192 GB | - | |
| | hpc-fat1 | Dell R840 | 4 x Xeon Gold 6248 @ 2.50GHz (20c) | 1 TB | - | | | hpc-fat1 | Dell R840 | 4 x Xeon Gold 6248 @ 2.50GHz (20c) | 1 TB | - | |
| | hpc-gpu[1-2] | Dell R740 | 2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c) | 192 GB | 2x Nvidia Tesla V100S | | | hpc-gpu[1-2] | Dell R740 | 2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c) | 192 GB | 2x Nvidia Tesla V100S 32GB | |
| | hpc-gpu3 | Dell R7525 | 2 x AMD EPYC 7543 @2,80 GHz (32c) | 256 GB | 2x Nvidia Ampere A100 40GB | | | hpc-gpu3 | Dell R7525 | 2 x AMD EPYC 7543 @2,80 GHz (32c) | 256 GB | 2x Nvidia Ampere A100 40GB | |
| | hpc-gpu4 | Dell R7525 | 2 x AMD EPYC 7543 @2,80 GHz (32c) | 256 GB | 1x Nvidia Ampere A100 80GB | | | hpc-gpu4 | Dell R7525 | 2 x AMD EPYC 7543 @2,80 GHz (32c) | 256 GB | 1x Nvidia Ampere A100 80GB | |
| | | hpc-gpu5 | Dell R7725 | 2 x AMD EPYC 9255 @3.25 GHz (24c) | 364 GB | 2x Nvidia L4 24GB | |
| | | hpc-gpu6 | Dell R7725 | 2 x AMD EPYC 9255 @3.25 GHz (24c) | 384 GB | 2x Nvidia L4 24GB | |
| | |
| |
| ===== Conexión al sistema ===== | ===== Conexión al sistema ===== |
| Para acceder al clúster, hay que solicitarlo previamente a través de [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de "contraseña incorrecta". | Para acceder al clúster, hay que solicitarlo previamente a través de [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de "contraseña incorrecta". |
| |
| El acceso se realiza mediante una conexión SSH al nodo de login: | El acceso se realiza mediante una conexión SSH al nodo de login (172.16.242.211): |
| <code bash> | <code bash> |
| ssh <nombre_de_usuario>@hpc-login2.inv.usc.es | ssh <nombre_de_usuario>@hpc-login2.inv.usc.es |
| * Perl 5.26.3 | * Perl 5.26.3 |
| En los nodos con GPU, además: | En los nodos con GPU, además: |
| * nVidia Driver 510.47.03 | * nVidia Driver 560.35.03 |
| * CUDA 11.6 | * CUDA 11.6 |
| * libcudnn 8.7 | * libcudnn 8.7 |
| |
| === Apptainer/Singularity === | === Apptainer/Singularity === |
| [[ https://sylabs.io/guides/3.8/user-guide/ | Documentacion de Apptainer/Singularity ]] \\ | [[ https://apptainer.org/docs/user/1.4/ | Documentacion de Apptainer ]] \\ |
| Apptainer/Singularity está instalado en el sistema de cada nodo, por lo que no es necesario hacer nada para usarlo. | Apptainer está instalado en el sistema de cada nodo, por lo que no es necesario hacer nada para usarlo. |
| |
| |
| <code bash> | <code bash> |
| # Obtener miniconda | # Obtener miniconda |
| wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.11.0-Linux-x86_64.sh | wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh |
| # Instalarlo | # Instalarlo |
| sh Miniconda3-py39_4.11.0-Linux-x86_64.sh | bash Miniconda3-latest-Linux-x86_64.sh |
| | # Inicializar miniconda para el shell bash |
| | ~/miniconda3/bin/conda init bash |
| </code> | </code> |
| |
| ===== Uso de SLURM ===== | ===== Uso de SLURM ===== |
| El gestor de colas en el cluster es [[ https://slurm.schedmd.com/documentation.html | SLURM ]]. \\ | El gestor de colas en el cluster es [[ https://slurm.schedmd.com/documentation.html | SLURM ]]. \\ |
| hpc-gpu3 up 0%[--------------------------------------------------]( 0/64) RAM: 0% A100_40 (0/2) | hpc-gpu3 up 0%[--------------------------------------------------]( 0/64) RAM: 0% A100_40 (0/2) |
| hpc-gpu4 up 1%[|-------------------------------------------------]( 1/64) RAM: 35% A100_80 (1/1) | hpc-gpu4 up 1%[|-------------------------------------------------]( 1/64) RAM: 35% A100_80 (1/1) |
| | hpc-gpu5 up 0%[--------------------------------------------------]( 0/48) RAM: 0% L4 (0/2) |
| | hpc-gpu6 up 0%[--------------------------------------------------]( 0/48) RAM: 0% L4 (0/2) |
| hpc-node1 up 0%[--------------------------------------------------]( 0/36) RAM: 0% --- | hpc-node1 up 0%[--------------------------------------------------]( 0/36) RAM: 0% --- |
| hpc-node2 up 0%[--------------------------------------------------]( 0/36) RAM: 0% --- | hpc-node2 up 0%[--------------------------------------------------]( 0/36) RAM: 0% --- |
| hpc-gpu3 64 253282 cpu_amd gpu:A100_40:2 | hpc-gpu3 64 253282 cpu_amd gpu:A100_40:2 |
| hpc-gpu4 64 253282 cpu_amd gpu:A100_80:1(S:0) | hpc-gpu4 64 253282 cpu_amd gpu:A100_80:1(S:0) |
| | hpc-gpu[5-6] 48 375484 cpu_amd gpu:L4:2(S:1) |
| hpc-node[1-2] 36 187645 cpu_intel (null) | hpc-node[1-2] 36 187645 cpu_intel (null) |
| hpc-node[3-9] 48 187645 cpu_intel (null) | hpc-node[3-9] 48 187645 cpu_intel (null) |
| NODELIST CPUS(A/I/O/T) MEMORY FREE_MEM GRES GRES_USED | NODELIST CPUS(A/I/O/T) MEMORY FREE_MEM GRES GRES_USED |
| hpc-fat1 80/0/0/80 1027273 900850 (null) gpu:0,mps:0 | hpc-fat1 80/0/0/80 1027273 900850 (null) gpu:0,mps:0 |
| | hpc-gpu1 16/20/0/36 187911 181851 gpu:V100S:2(S:0-1) gpu:V100S:2(IDX:0-1) |
| | hpc-gpu2 4/32/0/36 187911 183657 gpu:V100S:2(S:0-1) gpu:V100S:1(IDX:0),m |
| hpc-gpu3 2/62/0/64 253282 226026 gpu:A100_40:2 gpu:A100_40:2(IDX:0- | hpc-gpu3 2/62/0/64 253282 226026 gpu:A100_40:2 gpu:A100_40:2(IDX:0- |
| hpc-gpu4 1/63/0/64 253282 244994 gpu:A100_80:1(S:0) gpu:A100_80:1(IDX:0) | hpc-gpu4 1/63/0/64 253282 244994 gpu:A100_80:1(S:0) gpu:A100_80:1(IDX:0) |
| | hpc-gpu5 8/40/0/48 375484 380850 gpu:L4:2(S:1) gpu:L4:1(IDX:1),mps: |
| | hpc-gpu6 0/48/0/48 375484 380969 gpu:L4:2(S:1) gpu:L4:0(IDX:N/A),mp |
| hpc-node1 36/0/0/36 187645 121401 (null) gpu:0,mps:0 | hpc-node1 36/0/0/36 187645 121401 (null) gpu:0,mps:0 |
| hpc-node2 36/0/0/36 187645 130012 (null) gpu:0,mps:0 | hpc-node2 36/0/0/36 187645 130012 (null) gpu:0,mps:0 |
| # Mostrar la información de las particiones: | # Mostrar la información de las particiones: |
| hpc-login2 ~]$ sinfo | hpc-login2 ~]$ sinfo |
| defaultPartition* up infinite 11 idle hpc-fat1,hpc-gpu[3-4],hpc-node[1-9] | defaultPartition* up infinite 11 idle hpc-fat1,hpc-gpu[1-6],hpc-node[1-9] |
| # Cuando se incorporen al cluster ctgpgpu7 y 8 apareceran como los nodos hpc-gpu1 y 2 respectivamente. | # Cuando se incorporen al cluster ctgpgpu7 y 8 apareceran como los nodos hpc-gpu1 y 2 respectivamente. |
| </code> | </code> |
| # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): | # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): |
| hpc-login2 ~]$ salloc -N1 | hpc-login2 ~]$ salloc -N1 |
| | # Obtener acceso interactivo a un nodo DE FORMA EXCLUSIVA |
| | hpc-login2 ~]$ salloc -N1 --exclusive |
| </code> | </code> |
| 3. SRUN \\ | 3. SRUN \\ |