Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revisionBoth sides next revision
en:centro:servizos:hpc [2022/06/30 10:58] fernando.guillenen:centro:servizos:hpc [2022/06/30 11:46] fernando.guillen
Line 1: Line 1:
-====== Cluster de Computación de Altas Prestacións (HPC) ctcomp3  ====== +====== High Performance Computing (HPC) cluster ctcomp3  ====== 
-[[ https://web.microsoftstream.com/video/f5eba154-b597-4440-9307-3befd7597d78 | Video de la presentación del servicio (7/3/22) ]] +[[ https://web.microsoftstream.com/video/f5eba154-b597-4440-9307-3befd7597d78 | Video de la presentación del servicio (7/3/22) (Spanish only) ]] 
-===== Descripción =====+===== Description =====
  
-El clúster está compuesto en la parte de cómputo por+The computing part of the cluster is made up of
-  *  servidores para cómputo general. +  * 9 servers for general computing
-  *  1 "fat node" para trabajos que requieran mucha memoria+  * 1 "fat node" for memory-intensive jobs
-  *  servidores para computo con GPU.+  * 4 servers for GPU computing.
    
-Los usuarios solo tienen acceso directo al nodo de login, de prestaciones más limitadas y que no debe usarse para computar. \\ +Users only have direct access to the login nodewhich has more limited features and should not be used for computing. \\ 
-Todos los nodos están interconectados por una red a 10Gb. \\ +All nodes are interconnected by a 10Gb network. \\ 
-Hay un almacenamiento distribuido accesible desde todos los nodos con 220 TB de capacidad conectado mediante una doble red de fibra de 25Gb. \\+There is distributed storage accessible from all nodes with 220 TB of capacity connected by a dual 25Gb fibre network. \\ 
 \\ \\
-^  Nombre                    ^  Modelo      ^  Procesador                                     ^  Memoria   GPU                         ^+^  Name                    ^  Model      ^  Processor                                     ^  Memory   GPU                         ^
 |  hpc-login2                |  Dell R440    1 x Intel Xeon Silver 4208 CPU @ 2.10GHz (8c)  |  16 GB    |  -                           | |  hpc-login2                |  Dell R440    1 x Intel Xeon Silver 4208 CPU @ 2.10GHz (8c)  |  16 GB    |  -                           |
 |  hpc-node[1-2]              Dell R740    2 x Intel Xeon Gold 5220 @2,2 GHz (18c)        |  192 GB    -                           | |  hpc-node[1-2]              Dell R740    2 x Intel Xeon Gold 5220 @2,2 GHz (18c)        |  192 GB    -                           |
Line 21: Line 22:
 |  hpc-gpu3                  |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB    2x Nvidia Ampere A100 40GB  | |  hpc-gpu3                  |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB    2x Nvidia Ampere A100 40GB  |
 |  hpc-gpu4                  |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB    1x Nvidia Ampere A100 80GB  | |  hpc-gpu4                  |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB    1x Nvidia Ampere A100 80GB  |
-Es ctgpgpu8. Se integrará próximamente en cluster. +Now ctgpgpu8. It will be integrated in the cluster soon
-===== Conexión al sistema ===== +===== Accessing the system ===== 
-Para acceder al clústerhay que solicitarlo previamente a través de [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de "contraseña incorrecta".+To access the clusteraccess must be requested in advance via [[https://citius.usc.es/uxitic/incidencias/add|incident form]]. Users who do not have access permission will receive an "incorrect passwordmessage.
  
-El acceso se realiza mediante una conexión SSH al nodo de login:+The access is done through an SSH connection to the login node:
 <code bash> <code bash>
 ssh <nombre_de_usuario>@hpc-login2.inv.usc.es ssh <nombre_de_usuario>@hpc-login2.inv.usc.es
 </code> </code>
  
-=====  Almacenamientodirectorios y sistemas de ficheros  ===== +=====  Storagedirectories and filesystems  ===== 
-<note warning> No se hace copia de seguridad de ninguno de los sistemas de ficheros del cluster!!</note> +<note warning> None of the file systems in the cluster are backed up!!!</note> 
-El HOME de los usuarios en el cluster está en el sistema compartido de ficherospor lo que es accesible desde todos los nodos del cluster. Ruta definida en la variable de entorno %%$HOME%%. \\ +The HOME of the users in the cluster is on the file share systemso it is accessible from all nodes in the cluster. Path defined in the environment variable %%$HOME%%. \\ 
-Cada nodo tiene una partición local de 1 TB para scratch, que se borra al terminar cada trabajoSe puede acceder mediante la variable de entorno %%$LOCAL_SCRATCH%% en los scripts. \\ +Each node has a local 1TB scratch partitionwhich is deleted at the end of each jobIt can be accessed through the %%$LOCAL_SCRATCH%% environment variable in the scripts. \\ 
-Para datos que deban ser compartidos por grupos de usuarioshay que solicitar la creación de una carpeta en el almacenamiento compartido que solo será accesible por los miembros del grupo.\\ +For data to be shared by groups of usersyou must request the creation of a folder in the shared storage that will only be accessible by members of the group.\\ 
-^  Directorio         Variable               ^  Punto de montaje             ^  Capacidad  ^+^  Directory         Variable               ^  Mount point             ^  Capacity  ^
 |  Home              |  %%$HOME%%              |  /mnt/beegfs/home/<username>  |  220 TB*    | |  Home              |  %%$HOME%%              |  /mnt/beegfs/home/<username>  |  220 TB*    |
-|  Scratch local     |  %%$LOCAL_SCRATCH%%      varía                        |  1 TB       | +|  local Scratch      |  %%$LOCAL_SCRATCH%%      varía                        |  1 TB       | 
-|  Carpeta de grupo   %% $GRUPOS/<nombre>%%  |  /mnt/beegfs/groups/<nombre>  |  220 TB*    | +|  Group folder   %% $GRUPOS/<nombre>%%  |  /mnt/beegfs/groups/<nombre>  |  220 TB*    | 
-%%* el almacenamiento es compartido%% +%%* storage is shared %% 
-=== AVISO IMPORTANTE === +=== WARNING === 
-El sistema compartido de archivos tiene un mal rendimiento cuando trabaja con muchos archivos de tamaño pequeñoPara mejorar el rendimiento en ese tipo de escenarios hay que crear un sistema de archivos en un fichero de imagen y montarlo para trabajar directamente sobre élEl procedimiento es el siguiente+The file share system performs poorly when working with many small filesTo improve performance in such scenarios, create a file system in an image file and mount it to work directly on itThe procedure is as follows
-  * Crear el fichero de imagen en tu home:+  * Create the image file at your home folder:
 <code bash> <code bash>
 ## truncate image.name -s SIZE_IN_BYTES ## truncate image.name -s SIZE_IN_BYTES
-truncate ejemplo.ext4 -s 20G+truncate example.ext4 -s 20G
 </code> </code>
-  *  Crear un sistema de archivos en el fichero de imagen:+  *  Create a filesystem in the image file:
 <code bash> <code bash>
 ## mkfs.ext4 -T small -m 0 image.name ## mkfs.ext4 -T small -m 0 image.name
-## -T small opciones optimizadas para archivos pequeños +## -T small optimized options for small files 
-## -m 0 No reservar espacio para root  +## -m 0 Do not reserve capacity for root user  
-mkfs.ext4 -T small -m 0 ejemplo.ext4+mkfs.ext4 -T small -m 0 example.ext4
 </code> </code>
-  * Montar la imagen (usando SUDO) con el script  //mount_image.py// :+  * Mount the image (using SUDO) with the script  //mount_image.py// :
 <code bash> <code bash>
-## Por defecto queda montada en /mnt/imagenes/<username>/ en modo solo lectura+## By default it is mounted at /mnt/imagenes/<username>/ in read-only mode
-sudo mount_image.py ejemplo.ext4+sudo mount_image.py example.ext4
 </code> </code>
-  * Para desmontar la imagen usar el script //umount_image.py// (usando SUDO)+  * To unmount the image use the script //umount_image.py// (using SUDO)
  
-El script de montaje tiene estas opciones:+The mount script has this options:
 <code> <code>
---mount-point path   <-- (opcional)Con esta opción crea subdirectorios por debajo de /mnt/imagenes/<username>/<path> +--mount-point path   <-- (optionalThis option creates subdirectories under /mnt/imagenes/<username>/<path>  
---rw                  <-- (opcional)Por defecto se monta readonly, con esta opción se monta readwrite.+--rw                  <-- (optionalBy default it is mounted readonly, with this option it is mounted readwrite.
 </code> </code>
-El script de desmontaje tiene estas opciones+<note warning> Do not mount the image file readwrite from more than one node!!!</note> 
-<code>solo admite como parámetro opcional el mismo path que hayas usado para el montaje con la opción  + 
---mount-point  <-- (opcional)+The unmounting script has this options
 +<code>only supports as an optional parameter the same path you have used when mounting with the option  
 +--mount-point  <-- (optional)
 </code> </code>
-=====  Transferencia de ficheros y datos  =====+=====  Transference of files and data  =====
 === SCP === === SCP ===
-Desde tu máquina local al cluster:+From your local machine to the cluster:
 <code bash> <code bash>
-scp filename <username>@hpc-login2:/<ruta>+scp filename <username>@hpc-login2:/<path>
 </code> </code>
-Desde el cluster a tu máquina local:+From the cluster to your local machine:
 <code bash> <code bash>
-scp filename <username>@<hostname>:/<ruta>+scp filename <username>@<hostname>:/<path>
 </code> </code>
-[[https://man7.org/linux/man-pages/man1/scp.1.html | Página del manual de SCP]]+[[https://man7.org/linux/man-pages/man1/scp.1.html | SCP man page]]
 === SFTP === === SFTP ===
-Para transferir múltiples archivos o para navegar por el sistema de archivos.+To transfer several files or to navigate through the filesystem.
 <code bash> <code bash>
 <hostname>:~$ sftp <user_name>@hpc-login2 <hostname>:~$ sftp <user_name>@hpc-login2
Line 92: Line 95:
 sftp> quit sftp> quit
 </code> </code>
-[[https://www.unix.com/man-page/redhat/1/sftp/Página del manual de SFTP]]+[[https://www.unix.com/man-page/redhat/1/sftp/ | SFTP man page]]
 === RSYNC === === RSYNC ===
-[[ https://rsync.samba.org/documentation.html | Documentación de RSYNC ]]+[[ https://rsync.samba.org/documentation.html | RSYNC documentation ]]
 === SSHFS === === SSHFS ===
-Requiere la instalación del paquete sshfs.\\ +Requires local installation of the sshfs package.\\ 
-Permite por ejemplo montar el home del equipo del usuario en hpc-login2:+Allows for example to mount the user's local home in hpc-login2:
 <code bash> <code bash>
-## Montar +## Mount 
-sshfs  <username>@ctdeskxxx.inv.usc.es:/home/<username> <punto_de_montaje+sshfs  <username>@ctdeskxxx.inv.usc.es:/home/<username> <mount_point
-## Desmontar +## Unmount 
-fusermount -u <punto_de_montaje>+fusermount -u <mount_point>
 </code> </code>
-[[https://linux.die.net/man/1/sshfs | Página del manual de SSHFS]]+[[https://linux.die.net/man/1/sshfs | SSHFS man page]]
  
-===== Software disponible =====+===== Available Software =====
 Todos los nodos tienen el software básico que se instala por defecto con AlmaLinux 8.4, particularmente: Todos los nodos tienen el software básico que se instala por defecto con AlmaLinux 8.4, particularmente:
   * GCC 8.5.0   * GCC 8.5.0