Diferenzas
Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| centro:servizos:hpc [2023/01/17 14:21] – [Software disponible] fernando.guillen | centro:servizos:hpc [2025/12/05 10:01] (actual) – [Particiones] fernando.guillen | ||
|---|---|---|---|
| Liña 6: | Liña 6: | ||
| * 9 servidores para cómputo general. | * 9 servidores para cómputo general. | ||
| * 1 "fat node" para trabajos que requieran mucha memoria. | * 1 "fat node" para trabajos que requieran mucha memoria. | ||
| - | * | + | * |
| Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ | Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ | ||
| Liña 17: | Liña 17: | ||
| | hpc-node[3-9] | | hpc-node[3-9] | ||
| | hpc-fat1 | | hpc-fat1 | ||
| - | | hpc-gpu[1-2] | + | | hpc-gpu[1-2] |
| | hpc-gpu3 | | hpc-gpu3 | ||
| | hpc-gpu4 | | hpc-gpu4 | ||
| + | | hpc-gpu5 | ||
| + | | hpc-gpu6 | ||
| + | |||
| ===== Conexión al sistema ===== | ===== Conexión al sistema ===== | ||
| Para acceder al clúster, hay que solicitarlo previamente a través de [[https:// | Para acceder al clúster, hay que solicitarlo previamente a través de [[https:// | ||
| - | El acceso se realiza mediante una conexión SSH al nodo de login: | + | El acceso se realiza mediante una conexión SSH al nodo de login (172.16.242.211): |
| <code bash> | <code bash> | ||
| ssh < | ssh < | ||
| Liña 59: | Liña 62: | ||
| </ | </ | ||
| * Para desmontar la imagen usar el script // | * Para desmontar la imagen usar el script // | ||
| + | <code bash> | ||
| + | sudo umount_image.py | ||
| + | </ | ||
| + | <note warning> | ||
| + | El fichero solo puede montarse desde un único nodo si se hace en modo readwrite, pero puede montarse desde cualquier número de nodos en modo readonly. | ||
| + | </ | ||
| El script de montaje tiene estas opciones: | El script de montaje tiene estas opciones: | ||
| < | < | ||
| Liña 111: | Liña 119: | ||
| * Perl 5.26.3 | * Perl 5.26.3 | ||
| En los nodos con GPU, además: | En los nodos con GPU, además: | ||
| - | * nVidia Driver | + | * nVidia Driver |
| * CUDA 11.6 | * CUDA 11.6 | ||
| * libcudnn 8.7 | * libcudnn 8.7 | ||
| Liña 151: | Liña 159: | ||
| === Apptainer/ | === Apptainer/ | ||
| - | [[ https://sylabs.io/guides/3.8/ | + | [[ https://apptainer.org/docs/user/1.4/ | Documentacion de Apptainer ]] \\ |
| - | Apptainer/ | + | Apptainer está instalado en el sistema de cada nodo, por lo que no es necesario hacer nada para usarlo. |
| Liña 160: | Liña 168: | ||
| <code bash> | <code bash> | ||
| # Obtener miniconda | # Obtener miniconda | ||
| - | wget https:// | + | wget https:// |
| # Instalarlo | # Instalarlo | ||
| - | sh Miniconda3-py39_4.11.0-Linux-x86_64.sh | + | bash Miniconda3-latest-Linux-x86_64.sh |
| + | # Inicializar miniconda para el shell bash | ||
| + | ~/ | ||
| </ | </ | ||
| - | |||
| ===== Uso de SLURM ===== | ===== Uso de SLURM ===== | ||
| El gestor de colas en el cluster es [[ https:// | El gestor de colas en el cluster es [[ https:// | ||
| Liña 170: | Liña 179: | ||
| == Recursos disponibles == | == Recursos disponibles == | ||
| <code bash> | <code bash> | ||
| + | hpc-login2 ~]# ver_estado.sh | ||
| + | ============================================================================================================= | ||
| + | NODO | ||
| + | ============================================================================================================= | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | ============================================================================================================= | ||
| + | TOTALES: [Cores : 3/688] [Mem(MB): 270000/ | ||
| + | |||
| hpc-login2 ~]$ sinfo -e -o " | hpc-login2 ~]$ sinfo -e -o " | ||
| # Hay un alias para este comando: | # Hay un alias para este comando: | ||
| Liña 178: | Liña 210: | ||
| hpc-gpu3 | hpc-gpu3 | ||
| hpc-gpu4 | hpc-gpu4 | ||
| + | hpc-gpu[5-6] | ||
| hpc-node[1-2] | hpc-node[1-2] | ||
| hpc-node[3-9] | hpc-node[3-9] | ||
| Liña 187: | Liña 220: | ||
| NODELIST | NODELIST | ||
| hpc-fat1 | hpc-fat1 | ||
| + | hpc-gpu1 | ||
| + | hpc-gpu2 | ||
| hpc-gpu3 | hpc-gpu3 | ||
| hpc-gpu4 | hpc-gpu4 | ||
| + | hpc-gpu5 | ||
| + | hpc-gpu6 | ||
| hpc-node1 | hpc-node1 | ||
| hpc-node2 | hpc-node2 | ||
| Liña 227: | Liña 264: | ||
| # Mostrar la información de las particiones: | # Mostrar la información de las particiones: | ||
| hpc-login2 ~]$ sinfo | hpc-login2 ~]$ sinfo | ||
| - | defaultPartition* | + | defaultPartition* |
| # Cuando se incorporen al cluster ctgpgpu7 y 8 apareceran como los nodos hpc-gpu1 y 2 respectivamente. | # Cuando se incorporen al cluster ctgpgpu7 y 8 apareceran como los nodos hpc-gpu1 y 2 respectivamente. | ||
| </ | </ | ||
| Liña 241: | Liña 278: | ||
| # Hay un alias que muestra solo la información más relevante: | # Hay un alias que muestra solo la información más relevante: | ||
| hpc-login2 ~]$ ver_colas | hpc-login2 ~]$ ver_colas | ||
| - | Name | + | Name |
| - | ---------- ---------- --------------- ----------- --------------------------- ----------- ------------- --------- ----------- | + | ---------- ---------- ------------------------------ ----------- -------------------- --------- ----------- |
| - | | + | |
| - | interactive | + | interacti+ |
| - | urgent | + | urgent |
| - | long 100 DenyOnLimit | + | long 100 gres/ |
| - | | + | |
| - | | + | |
| + | | ||
| + | | ||
| </ | </ | ||
| # Priority: es la prioridad relativa de cada cola. \\ | # Priority: es la prioridad relativa de cada cola. \\ | ||
| Liña 261: | Liña 300: | ||
| ==== Envío de un trabajo al sistema de colas ==== | ==== Envío de un trabajo al sistema de colas ==== | ||
| == Especificación de recursos == | == Especificación de recursos == | ||
| - | Por defecto, si se envía un trabajo sin especificar nada el sistema lo envia a la QOS por defecto (regular) y le asigna un nodo, una CPU y toda la memoria disponible. El límite de tiempo para la ejecución del trabajo es el de la cola (4 días y 4 horas). | + | Por defecto, si se envía un trabajo sin especificar nada el sistema lo envia a la QOS por defecto (regular) y le asigna un nodo, una CPU y 4 GB de RAM. El límite de tiempo para la ejecución del trabajo es el de la cola (4 días y 4 horas). |
| Esto es muy ineficiente, | Esto es muy ineficiente, | ||
| - %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%% | - %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%% | ||
| Liña 329: | Liña 368: | ||
| # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): | # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): | ||
| hpc-login2 ~]$ salloc -N1 | hpc-login2 ~]$ salloc -N1 | ||
| + | # Obtener acceso interactivo a un nodo DE FORMA EXCLUSIVA | ||
| + | hpc-login2 ~]$ salloc -N1 --exclusive | ||
| </ | </ | ||
| 3. SRUN \\ | 3. SRUN \\ | ||
| Liña 372: | Liña 413: | ||
| ## Ver el uso de recursos de un trabajo en ejecución: | ## Ver el uso de recursos de un trabajo en ejecución: | ||
| hpc-login2 ~]$ sstat < | hpc-login2 ~]$ sstat < | ||
| + | |||
| </ | </ | ||
| ==== Controlar la salida de los trabajos ==== | ==== Controlar la salida de los trabajos ==== | ||
| Liña 413: | Liña 455: | ||
| JOBID PARTITION | JOBID PARTITION | ||
| 6547 defaultPa | 6547 defaultPa | ||
| + | |||
| + | ## Ver estado de uso de las colas del cluster: | ||
| + | hpc-login2 ~]$ estado_colas.sh | ||
| + | JOBS PER USER: | ||
| + | -------------- | ||
| + | | ||
| + | | ||
| + | |||
| + | JOBS PER QOS: | ||
| + | -------------- | ||
| + | | ||
| + | long: 1 | ||
| + | |||
| + | JOBS PER STATE: | ||
| + | -------------- | ||
| + | | ||
| + | | ||
| + | ========================================== | ||
| + | Total JOBS in cluster: | ||
| </ | </ | ||
| Estados (STATE) más comunes de un trabajo: | Estados (STATE) más comunes de un trabajo: | ||