Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| es:centro:servizos:hpc [2024/10/08 09:56] – [CONDA] jorge.suarez | es:centro:servizos:hpc [2025/12/05 10:05] (actual) – fernando.guillen | ||
|---|---|---|---|
| Línea 6: | Línea 6: | ||
| * 9 servidores para cómputo general. | * 9 servidores para cómputo general. | ||
| * 1 "fat node" para trabajos que requieran mucha memoria. | * 1 "fat node" para trabajos que requieran mucha memoria. | ||
| - | * | + | * |
| Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ | Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ | ||
| Línea 17: | Línea 17: | ||
| | hpc-node[3-9] | | hpc-node[3-9] | ||
| | hpc-fat1 | | hpc-fat1 | ||
| - | | hpc-gpu[1-2] | + | | hpc-gpu[1-2] |
| | hpc-gpu3 | | hpc-gpu3 | ||
| | hpc-gpu4 | | hpc-gpu4 | ||
| + | | hpc-gpu5 | ||
| + | | hpc-gpu6 | ||
| + | |||
| ===== Conexión al sistema ===== | ===== Conexión al sistema ===== | ||
| Línea 59: | Línea 62: | ||
| </ | </ | ||
| * Para desmontar la imagen usar el script // | * Para desmontar la imagen usar el script // | ||
| + | <code bash> | ||
| + | sudo umount_image.py | ||
| + | </ | ||
| + | <note warning> | ||
| + | El fichero solo puede montarse desde un único nodo si se hace en modo readwrite, pero puede montarse desde cualquier número de nodos en modo readonly. | ||
| + | </ | ||
| El script de montaje tiene estas opciones: | El script de montaje tiene estas opciones: | ||
| < | < | ||
| Línea 111: | Línea 119: | ||
| * Perl 5.26.3 | * Perl 5.26.3 | ||
| En los nodos con GPU, además: | En los nodos con GPU, además: | ||
| - | * nVidia Driver | + | * nVidia Driver |
| * CUDA 11.6 | * CUDA 11.6 | ||
| * libcudnn 8.7 | * libcudnn 8.7 | ||
| - | |||
| Para usar cualquier otro software no instalado en el sistema u otra versión del mismo hay tres opciones: | Para usar cualquier otro software no instalado en el sistema u otra versión del mismo hay tres opciones: | ||
| - Usar Modules con los módulos que ya están instalados (o solicitar la instalación de un nuevo módulo si no está disponible) | - Usar Modules con los módulos que ya están instalados (o solicitar la instalación de un nuevo módulo si no está disponible) | ||
| Línea 146: | Línea 153: | ||
| === uDocker ==== | === uDocker ==== | ||
| [[ https:// | [[ https:// | ||
| - | udocker | + | uDocker |
| <code bash> | <code bash> | ||
| - | ml uDocker | + | ml udocker |
| </ | </ | ||
| === Apptainer/ | === Apptainer/ | ||
| - | [[ https://sylabs.io/guides/3.8/ | + | [[ https://apptainer.org/docs/user/1.4/ | Documentacion de Apptainer ]] \\ |
| - | Apptainer/ | + | Apptainer está instalado en el sistema de cada nodo, por lo que no es necesario hacer nada para usarlo. |
| Línea 167: | Línea 174: | ||
| ~/ | ~/ | ||
| </ | </ | ||
| - | |||
| ===== Uso de SLURM ===== | ===== Uso de SLURM ===== | ||
| El gestor de colas en el cluster es [[ https:// | El gestor de colas en el cluster es [[ https:// | ||
| Línea 182: | Línea 188: | ||
| | | ||
| | | ||
| + | | ||
| + | | ||
| | | ||
| | | ||
| Línea 202: | Línea 210: | ||
| hpc-gpu3 | hpc-gpu3 | ||
| hpc-gpu4 | hpc-gpu4 | ||
| + | hpc-gpu[5-6] | ||
| hpc-node[1-2] | hpc-node[1-2] | ||
| hpc-node[3-9] | hpc-node[3-9] | ||
| Línea 211: | Línea 220: | ||
| NODELIST | NODELIST | ||
| hpc-fat1 | hpc-fat1 | ||
| + | hpc-gpu1 | ||
| + | hpc-gpu2 | ||
| hpc-gpu3 | hpc-gpu3 | ||
| hpc-gpu4 | hpc-gpu4 | ||
| + | hpc-gpu5 | ||
| + | hpc-gpu6 | ||
| hpc-node1 | hpc-node1 | ||
| hpc-node2 | hpc-node2 | ||
| Línea 251: | Línea 264: | ||
| # Mostrar la información de las particiones: | # Mostrar la información de las particiones: | ||
| hpc-login2 ~]$ sinfo | hpc-login2 ~]$ sinfo | ||
| - | defaultPartition* | + | defaultPartition* |
| # Cuando se incorporen al cluster ctgpgpu7 y 8 apareceran como los nodos hpc-gpu1 y 2 respectivamente. | # Cuando se incorporen al cluster ctgpgpu7 y 8 apareceran como los nodos hpc-gpu1 y 2 respectivamente. | ||
| </ | </ | ||
| Línea 265: | Línea 278: | ||
| # Hay un alias que muestra solo la información más relevante: | # Hay un alias que muestra solo la información más relevante: | ||
| hpc-login2 ~]$ ver_colas | hpc-login2 ~]$ ver_colas | ||
| - | Name Priority | + | Name |
| - | ---------- | + | ---------- ---------- ------------------------------ ----------- -------------------- --------- ----------- |
| - | | + | |
| - | interactive | + | interacti+ |
| - | urgent | + | urgent |
| - | long | + | long 100 gres/ |
| - | | + | |
| - | | + | |
| - | | + | |
| + | | ||
| </ | </ | ||
| # Priority: es la prioridad relativa de cada cola. \\ | # Priority: es la prioridad relativa de cada cola. \\ | ||
| Línea 286: | Línea 300: | ||
| ==== Envío de un trabajo al sistema de colas ==== | ==== Envío de un trabajo al sistema de colas ==== | ||
| == Especificación de recursos == | == Especificación de recursos == | ||
| - | Por defecto, si se envía un trabajo sin especificar nada el sistema lo envía | + | Por defecto, si se envía un trabajo sin especificar nada el sistema lo envia a la QOS por defecto (regular) y le asigna un nodo, una CPU y 4 GB de RAM. El límite de tiempo para la ejecución del trabajo es el de la cola (4 días y 4 horas). |
| Esto es muy ineficiente, | Esto es muy ineficiente, | ||
| - %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%% | - %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%% | ||
| Línea 354: | Línea 368: | ||
| # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): | # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): | ||
| hpc-login2 ~]$ salloc -N1 | hpc-login2 ~]$ salloc -N1 | ||
| - | # Obtener acceso interactivo a un nodo de forma EXCLUSIVA | + | # Obtener acceso interactivo a un nodo DE FORMA EXCLUSIVA |
| hpc-login2 ~]$ salloc -N1 --exclusive | hpc-login2 ~]$ salloc -N1 --exclusive | ||
| </ | </ | ||
| Línea 399: | Línea 413: | ||
| ## Ver el uso de recursos de un trabajo en ejecución: | ## Ver el uso de recursos de un trabajo en ejecución: | ||
| hpc-login2 ~]$ sstat < | hpc-login2 ~]$ sstat < | ||
| + | |||
| </ | </ | ||
| ==== Controlar la salida de los trabajos ==== | ==== Controlar la salida de los trabajos ==== | ||
| Línea 469: | Línea 484: | ||
| Si un trabajo no está en ejecución aparecerá una razón debajo de REASON:[[ https:// | Si un trabajo no está en ejecución aparecerá una razón debajo de REASON:[[ https:// | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||