Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previa | |||
| es:centro:servizos:hpc [2025/12/05 09:56] – editor externo 127.0.0.1 | es:centro:servizos:hpc [2025/12/05 10:05] (actual) – fernando.guillen | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| - | ====== | + | ====== |
| [[ https:// | [[ https:// | ||
| ===== Descripción ===== | ===== Descripción ===== | ||
| - | El clúster está compuesto en la parte de cálculo | + | El clúster está compuesto en la parte de cómputo |
| - | * 9 servidores para cálculo | + | * 9 servidores para cómputo |
| * 1 "fat node" para trabajos que requieran mucha memoria. | * 1 "fat node" para trabajos que requieran mucha memoria. | ||
| - | * 6 servidores para cálculo | + | * 6 servidores para computo |
| - | Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para calcular. \\ | + | Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ |
| Todos los nodos están interconectados por una red a 10Gb. \\ | Todos los nodos están interconectados por una red a 10Gb. \\ | ||
| Hay un almacenamiento distribuido accesible desde todos los nodos con 220 TB de capacidad conectado mediante una doble red de fibra de 25Gb. \\ | Hay un almacenamiento distribuido accesible desde todos los nodos con 220 TB de capacidad conectado mediante una doble red de fibra de 25Gb. \\ | ||
| Línea 17: | Línea 17: | ||
| | hpc-node[3-9] | | hpc-node[3-9] | ||
| | hpc-fat1 | | hpc-fat1 | ||
| - | | hpc-gpu[1-2] | + | | hpc-gpu[1-2] |
| | hpc-gpu3 | | hpc-gpu3 | ||
| | hpc-gpu4 | | hpc-gpu4 | ||
| Línea 32: | Línea 32: | ||
| </ | </ | ||
| - | ===== Almacenamiento, | + | ===== Almacenamiento, |
| - | <note warning> No se hace copia de seguridad de ninguno de los sistemas de archivos | + | <note warning> No se hace copia de seguridad de ninguno de los sistemas de ficheros |
| - | El HOME de los usuarios en el clúster | + | El HOME de los usuarios en el cluster |
| Cada nodo tiene una partición local de 1 TB para scratch, que se borra al terminar cada trabajo. Se puede acceder mediante la variable de entorno %%$LOCAL_SCRATCH%% en los scripts. \\ | Cada nodo tiene una partición local de 1 TB para scratch, que se borra al terminar cada trabajo. Se puede acceder mediante la variable de entorno %%$LOCAL_SCRATCH%% en los scripts. \\ | ||
| Para datos que deban ser compartidos por grupos de usuarios, hay que solicitar la creación de una carpeta en el almacenamiento compartido que solo será accesible por los miembros del grupo.\\ | Para datos que deban ser compartidos por grupos de usuarios, hay que solicitar la creación de una carpeta en el almacenamiento compartido que solo será accesible por los miembros del grupo.\\ | ||
| Línea 79: | Línea 79: | ||
| ===== Transferencia de ficheros y datos ===== | ===== Transferencia de ficheros y datos ===== | ||
| === SCP === | === SCP === | ||
| - | Desde tu máquina local al clúster: | + | Desde tu máquina local al cluster: |
| <code bash> | <code bash> | ||
| scp filename < | scp filename < | ||
| </ | </ | ||
| - | Desde el clúster | + | Desde el cluster |
| <code bash> | <code bash> | ||
| scp filename < | scp filename < | ||
| Línea 165: | Línea 165: | ||
| ==== CONDA ==== | ==== CONDA ==== | ||
| [[ https:// | [[ https:// | ||
| - | Miniconda es la versión | + | Miniconda es la versíon |
| <code bash> | <code bash> | ||
| # Obtener miniconda | # Obtener miniconda | ||
| Línea 175: | Línea 175: | ||
| </ | </ | ||
| ===== Uso de SLURM ===== | ===== Uso de SLURM ===== | ||
| - | El gestor de colas en el clúster | + | El gestor de colas en el cluster |
| <note tip>El término CPU identifica a un core físico de un socket. El hyperthreading está desactivado, | <note tip>El término CPU identifica a un core físico de un socket. El hyperthreading está desactivado, | ||
| == Recursos disponibles == | == Recursos disponibles == | ||
| Línea 210: | Línea 210: | ||
| hpc-gpu3 | hpc-gpu3 | ||
| hpc-gpu4 | hpc-gpu4 | ||
| + | hpc-gpu[5-6] | ||
| hpc-node[1-2] | hpc-node[1-2] | ||
| hpc-node[3-9] | hpc-node[3-9] | ||
| Línea 219: | Línea 220: | ||
| NODELIST | NODELIST | ||
| hpc-fat1 | hpc-fat1 | ||
| + | hpc-gpu1 | ||
| + | hpc-gpu2 | ||
| hpc-gpu3 | hpc-gpu3 | ||
| hpc-gpu4 | hpc-gpu4 | ||
| + | hpc-gpu5 | ||
| + | hpc-gpu6 | ||
| hpc-node1 | hpc-node1 | ||
| hpc-node2 | hpc-node2 | ||
| Línea 232: | Línea 237: | ||
| </ | </ | ||
| ==== Nodos ==== | ==== Nodos ==== | ||
| - | Un nodo es la unidad de cálculo | + | Un nodo es la unidad de computación |
| <code bash> | <code bash> | ||
| # Mostrar la información de un nodo: | # Mostrar la información de un nodo: | ||
| Línea 255: | Línea 260: | ||
| </ | </ | ||
| ==== Particiones ==== | ==== Particiones ==== | ||
| - | Las particiones en SLURM son grupos lógicos de nodos. En el clúster | + | Las particiones en SLURM son grupos lógicos de nodos. En el cluster |
| <code bash> | <code bash> | ||
| # Mostrar la información de las particiones: | # Mostrar la información de las particiones: | ||
| hpc-login2 ~]$ sinfo | hpc-login2 ~]$ sinfo | ||
| - | defaultPartition* | + | defaultPartition* |
| - | # Cuando se incorporen al clúster | + | # Cuando se incorporen al cluster |
| </ | </ | ||
| ==== Trabajos ==== | ==== Trabajos ==== | ||
| Los trabajos en SLURM son asignaciones de recursos a un usuario durante un tiempo determinado. Los trabajos se identifican por un número correlativo o JOBID. \\ | Los trabajos en SLURM son asignaciones de recursos a un usuario durante un tiempo determinado. Los trabajos se identifican por un número correlativo o JOBID. \\ | ||
| - | Un trabajo (JOB) consiste en uno o más pasos (STEPS), cada uno consistente en una o más tareas (TASKS) que usan una o más CPU. Hay un STEP por cada programa que se ejecute de forma secuencial en un JOB y hay un TASK por cada programa que se ejecute en paralelo. Por lo tanto, en el caso más simple, como por ejemplo lanzar un trabajo consistente en ejecutar el comando hostname, el JOB tiene un único STEP y una única TASK. | + | Un trabajo (JOB) consiste en uno o más pasos (STEPS), cada uno consistente en una o más tareas (TASKS) que usan una o más CPU. Hay un STEP por cada programa que se ejecute de forma secuencial en un JOB y hay un TASK por cada programa que se ejecute en paralelo. Por lo tanto en el caso más simple como por ejemplo lanzar un trabajo consistente en ejecutar el comando hostname el JOB tiene un único STEP y una única TASK. |
| ==== Sistema de colas (QOS) ==== | ==== Sistema de colas (QOS) ==== | ||
| - | La cola a la que se envíe cada trabajo define la prioridad, los límites y también el " | + | La cola a la que se envíe cada trabajo define la prioridad, |
| <code bash> | <code bash> | ||
| # Mostrar las colas | # Mostrar las colas | ||
| Línea 291: | Línea 296: | ||
| # MaxTRESPU: límites globales por usuario \\ | # MaxTRESPU: límites globales por usuario \\ | ||
| # MaxJobsPU: Número máximo de trabajos que un usuario puede tener en ejecución. \\ | # MaxJobsPU: Número máximo de trabajos que un usuario puede tener en ejecución. \\ | ||
| - | # MaxSubmitPU: | + | # MaxSubmitPU: |
| ==== Envío de un trabajo al sistema de colas ==== | ==== Envío de un trabajo al sistema de colas ==== | ||
| == Especificación de recursos == | == Especificación de recursos == | ||
| - | Por defecto, si se envía un trabajo sin especificar nada el sistema lo envía | + | Por defecto, si se envía un trabajo sin especificar nada el sistema lo envia a la QOS por defecto (regular) y le asigna un nodo, una CPU y 4 GB de RAM. El límite de tiempo para la ejecución del trabajo es el de la cola (4 días y 4 horas). |
| Esto es muy ineficiente, | Esto es muy ineficiente, | ||
| - %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%% | - %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%% | ||
| - %%La memoria (--mem) por nodo o la memoria por cpu (--mem-per-cpu).%% | - %%La memoria (--mem) por nodo o la memoria por cpu (--mem-per-cpu).%% | ||
| - | - %%El tiempo estimado de ejecución del trabajo (--time)%% | + | - %%El tiempo estimado de ejecución del trabajo ( --time )%% |
| A mayores puede ser interesante añadir los siguientes parámetros: | A mayores puede ser interesante añadir los siguientes parámetros: | ||
| | -J | | -J | ||
| | -q | | -q | ||
| - | | -o | + | | -o |
| | | | | ||
| | -C | | -C | ||
| Línea 311: | Línea 316: | ||
| == Cómo se asignan los recursos == | == Cómo se asignan los recursos == | ||
| - | Por defecto el método de asignación entre nodos es la asignación en bloque (se asignan todos los cores disponibles en un nodo antes de usar otro). El método de asignación por defecto dentro de cada nodo es la asignación cíclica (se van repartiendo por igual los cores requeridos entre los sockets disponibles en el nodo). | + | Por defecto el método de asignación entre nodos es la asignación en bloque ( se asignan todos los cores disponibles en un nodo antes de usar otro). El método de asignación por defecto dentro de cada nodo es la asignación cíclica |
| - | == Cálculo | + | == Calculo |
| Cuando se envía un trabajo al sistema de colas, lo primero que ocurre es que se comprueba si los recursos solicitados entran dentro de los límites fijados en la cola correspondiente. Si supera alguno se cancela el envío. \\ | Cuando se envía un trabajo al sistema de colas, lo primero que ocurre es que se comprueba si los recursos solicitados entran dentro de los límites fijados en la cola correspondiente. Si supera alguno se cancela el envío. \\ | ||
| - | Si hay recursos disponibles el trabajo se ejecuta directamente, | + | Si hay recursos disponibles el trabajo se ejecuta directamente, |
| El fairshare es un cálculo dinámico que hace SLURM para cada usuario y es la diferencia entre los recursos asignados y los recursos consumidos a lo largo de los últimos 14 días. | El fairshare es un cálculo dinámico que hace SLURM para cada usuario y es la diferencia entre los recursos asignados y los recursos consumidos a lo largo de los últimos 14 días. | ||
| <code bash> | <code bash> | ||
| Línea 328: | Línea 333: | ||
| # NormShares: Es la cantidad anterior normalizada a los recursos asignados en total.\\ | # NormShares: Es la cantidad anterior normalizada a los recursos asignados en total.\\ | ||
| # RawUsage: Es la cantidad de segundos/ | # RawUsage: Es la cantidad de segundos/ | ||
| - | # NormUsage: Cantidad anterior normalizada al total de segundos/ | + | # NormUsage: Cantidad anterior normalizada al total de segundos/ |
| - | # FairShare: El factor FairShare entre 0 y 1. Cuanto mayor uso del clúster, más se aproximará a 0 y menor será la prioridad.\\ | + | # FairShare: El factor FairShare entre 0 y 1. Cuanto mayor uso del cluster, más se aproximará a 0 y menor será la prioridad.\\ |
| == Envío de trabajos == | == Envío de trabajos == | ||
| Línea 343: | Línea 348: | ||
| hpc-login2 ~]$ vim trabajo_ejemplo.sh | hpc-login2 ~]$ vim trabajo_ejemplo.sh | ||
| #!/bin/bash | #!/bin/bash | ||
| - | #SBATCH --job-name=prueba | + | #SBATCH --job-name=prueba |
| - | #SBATCH --nodes=1 | + | #SBATCH --nodes=1 |
| - | #SBATCH --ntasks=1 | + | #SBATCH --ntasks=1 |
| - | #SBATCH --cpus-per-task=1 | + | #SBATCH --cpus-per-task=1 |
| - | #SBATCH --mem=1gb | + | #SBATCH --mem=1gb |
| - | #SBATCH --time=00: | + | #SBATCH --time=00: |
| #SBATCH --qos=urgent | #SBATCH --qos=urgent | ||
| - | #SBATCH --output=prueba_%j.log | + | #SBATCH --output=prueba_%j.log |
| - | echo "¡Hola Mundo!" | + | echo "Hello World!" |
| hpc-login2 ~]$ sbatch trabajo_ejemplo.sh | hpc-login2 ~]$ sbatch trabajo_ejemplo.sh | ||
| Línea 367: | Línea 372: | ||
| </ | </ | ||
| 3. SRUN \\ | 3. SRUN \\ | ||
| - | Sirve para lanzar un trabajo paralelo (es preferible a usar mpirun). Es interactivo y bloqueante. | + | Sirve para lanzar un trabajo paralelo ( es preferible a usar mpirun ). Es interactivo y bloqueante. |
| <code bash> | <code bash> | ||
| # Lanzar un hostname en 2 nodos | # Lanzar un hostname en 2 nodos | ||
| Línea 413: | Línea 418: | ||
| == Códigos de salida == | == Códigos de salida == | ||
| Por defecto estos son los códigos de salida de los comandos: | Por defecto estos son los códigos de salida de los comandos: | ||
| - | ^ | + | ^ SLURM command |
| - | | salloc | + | | salloc |
| - | | srun | El más alto de entre todas las tareas ejecutadas o 253 para un error fuera de memoria | + | | srun | El más alto de entre todas las tareas ejecutadas o 253 para un error out-of-mem |
| | sbatch | | sbatch | ||
| == STDIN, STDOUT y STDERR == | == STDIN, STDOUT y STDERR == | ||
| **SRUN:**\\ | **SRUN:**\\ | ||
| - | Por defecto stdout y stderr se redirigen de todos los TASKS al stdout y stderr de srun, y stdin se redirecciona desde el stdin de srun a todas las TASKS. Esto se puede cambiar con: | + | Por defecto stdout y stderr se redirigen de todos los TASKS a el stdout y stderr de srun, y stdin se redirecciona desde el stdin de srun a todas las TASKS. Esto se puede cambiar con: |
| | %%-i, --input=< | | %%-i, --input=< | ||
| | %%-o, --output=< | | %%-o, --output=< | ||
| Línea 451: | Línea 456: | ||
| 6547 defaultPa | 6547 defaultPa | ||
| - | ## Ver estado de uso de las colas del clúster: | + | ## Ver estado de uso de las colas del cluster: |
| hpc-login2 ~]$ estado_colas.sh | hpc-login2 ~]$ estado_colas.sh | ||
| JOBS PER USER: | JOBS PER USER: | ||
| Línea 468: | Línea 473: | ||
| | | ||
| ========================================== | ========================================== | ||
| - | Total JOBS en clúster: 4 | + | Total JOBS in cluster: 4 |
| </ | </ | ||
| Estados (STATE) más comunes de un trabajo: | Estados (STATE) más comunes de un trabajo: | ||
| - | * R RUNNING | + | * R RUNNING |
| - | * CD COMPLETED | + | * CD COMPLETED |
| - | * F FAILED | + | * F FAILED |
| - | * PD PENDING | + | * PD PENDING |
| [[ https:// | [[ https:// | ||
| - | Si un trabajo no está en ejecución, aparecerá una razón debajo de REASON:[[ https:// | + | Si un trabajo no está en ejecución aparecerá una razón debajo de REASON:[[ https:// |
| + | |||
| + | |||
| + | |||