Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| es:centro:servizos:hpc:envio_trabajo [2016/02/12 10:15] – [Consultar el estado del trabajo, las colas o los nodos] fernando.guillen | es:centro:servizos:hpc:envio_trabajo [2017/10/09 11:13] (actual) – [Table] diego.cougil | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| - | [[ es: | ||
| - | |||
| ====== Envío y gestión de los trabajos ====== | ====== Envío y gestión de los trabajos ====== | ||
| - | <note tip> | + | |
| - | Para todos los comandos mencionados en esta página existe la correspondiente página del MAN. | + | |
| - | </ | + | |
| ===== Enviar los trabajos al sistema de colas ===== | ===== Enviar los trabajos al sistema de colas ===== | ||
| + | -------------- | ||
| El envío de trabajos se realiza a través del comando qsub, cuyo argumento obligatorio es el nombre de un script de shell. | El envío de trabajos se realiza a través del comando qsub, cuyo argumento obligatorio es el nombre de un script de shell. | ||
| < | < | ||
| Línea 13: | Línea 10: | ||
| ===== Consultar el estado del trabajo, las colas o los nodos ===== | ===== Consultar el estado del trabajo, las colas o los nodos ===== | ||
| + | --------------- | ||
| + | ==== Información de las colas ==== | ||
| El comando '' | El comando '' | ||
| + | <code bash> | ||
| + | ct$ qstat -q # Información global de las colas | ||
| + | server: ctcomp2 | ||
| + | |||
| + | Queue Memory CPU Time Walltime Node Run Que Lm State | ||
| + | ---------------- ------ -------- -------- ---- --- --- -- ----- | ||
| + | graphic32 | ||
| + | np16 | ||
| + | np32 | ||
| + | especial | ||
| + | parallel | ||
| + | np2 -- -- 192: | ||
| + | np8 -- -- 192: | ||
| + | short -- -- | ||
| + | graphic1 | ||
| + | np1 -- -- 672: | ||
| + | batch -- -- | ||
| + | np4 -- -- 192: | ||
| + | interactive | ||
| + | np64 | ||
| + | graphic | ||
| + | bigmem | ||
| + | graphic8 | ||
| + | ----- ----- | ||
| + | | ||
| + | </ | ||
| + | La columna State indica con su primera letra si la cola está (E)nabled o (D)isabled y con la segunda letra si la cola está (R)unning o (S)topped. | ||
| + | |||
| + | ==== Información de los trabajos ==== | ||
| + | Cada vez que se envía un trabajo se le asigna un JOB_ID que sirve como identificador único. Si el trabajo se envió con la opción -t entonces se identificará mediante '' | ||
| + | |||
| <code bash> | <code bash> | ||
| ct$ qstat # Información general de los trabajos de usuario | ct$ qstat # Información general de los trabajos de usuario | ||
| Línea 20: | Línea 50: | ||
| ------------------------- ---------------- --------------- | ------------------------- ---------------- --------------- | ||
| 999999.ctcomp2 | 999999.ctcomp2 | ||
| - | |||
| </ | </ | ||
| + | La columna Time Use muestra el tiempo de CPU usado. | ||
| + | La columna S es el estado del trabajo, que puede ser uno de los siguientes: | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | | ||
| + | |||
| <code bash> | <code bash> | ||
| - | qstat -f 999999.ctcomp2 | + | ct$ qstat -f 999999.ctcomp2 |
| Job Id: 999999.ctcomp2.innet | Job Id: 999999.ctcomp2.innet | ||
| Job_Name = nombre_del_trabajo | Job_Name = nombre_del_trabajo | ||
| Línea 66: | Línea 105: | ||
| </ | </ | ||
| + | Una característica interesante de los trabajos finalizados es el EXIT_STATUS que se mostraría cuando el JOB_STATE es C. | ||
| + | ^ Código interno | ||
| + | | JOB_EXEC_OVERLIMIT | ||
| + | | JOB_EXEC_STDOUTFAIL | ||
| + | | JOB_EXEC_CMDFAIL | ||
| + | | JOB_EXEC_BADRESRT | ||
| + | | JOB_EXEC_INITRMG | ||
| + | | JOB_EXEC_INITRST | ||
| + | | JOB_EXEC_INITABT | ||
| + | | JOB_EXEC_RETRY | ||
| + | | JOB_EXEC_FAIL2 | ||
| + | | JOB_EXEC_FAIL1 | ||
| + | | JOB_EXEC_OK | ||
| + | | | ||
| + | | | ||
| <code bash> | <code bash> | ||
| - | ct$ qstat -q # Información | + | ct$ checkjob 999999.ctcomp2 |
| - | server: ctcomp2 | + | |
| - | Queue Memory CPU Time Walltime Node Run Que Lm | + | checking job 999999 |
| - | ---------------- ------ -------- -------- ---- --- --- -- ----- | + | |
| - | graphic32 | + | State: Running |
| - | np16 | + | Creds: |
| - | np32 | + | WallTime: 00:25:46 of 12:00:00 |
| - | especial | + | SubmitTime: Tue Feb 16 10:40:31 |
| - | parallel | + | (Time Queued |
| - | np2 -- -- 192:00:0 | + | |
| - | np8 -- -- 192:00:0 | + | StartTime: Tue Feb 16 10:40:32 |
| - | short -- -- | + | Total Tasks: 32 |
| - | graphic1 | + | |
| - | np1 -- -- 672:00:0 | + | Req[0] TaskCount: 32 Partition: DEFAULT |
| - | batch -- -- | + | Network: [NONE] |
| - | np4 -- -- 192:00:0 | + | Opsys: [NONE] |
| - | interactive | + | Allocated Nodes: |
| - | np64 | + | [inode15:32] |
| - | graphic | + | |
| - | bigmem | + | |
| - | graphic8 | + | IWD: [NONE] |
| - | ----- ----- | + | Bypass: |
| - | | + | PartitionMask: |
| + | Flags: | ||
| + | |||
| + | Reservation ' | ||
| + | PE: 32.00 StartPriority: | ||
| </ | </ | ||
| + | |||
| + | <code bash> | ||
| + | ct$ tracejob -n 3 999999.ctcomp2 | ||
| + | Job: 136553.ctcomp2.innet | ||
| + | |||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | 02/10/2016 15: | ||
| + | jobname=nombre_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/ | ||
| + | 02/10/2016 16: | ||
| + | resources_used.mem=234868kb resources_used.vmem=1002480kb | ||
| + | resources_used.walltime=00: | ||
| + | 02/10/2016 16: | ||
| + | 02/10/2016 16: | ||
| + | 02/10/2016 17: | ||
| + | </ | ||
| + | |||
| + | |||
| + | ==== Información de los nodos ==== | ||
| + | Para obtener una vista global del estado del cluster se puede utilizar el comando '' | ||
| + | <code bash> | ||
| + | $ nodes-usage | ||
| + | +----------------------------------+-------------------+ | ||
| + | | USAGE | NODE | | ||
| + | +----------------------------------+-------------------+ | ||
| + | | ################################ | ||
| + | | ################################ | ||
| + | | | node3 (0/ | ||
| + | | ################################ | ||
| + | | | node5 (0/ | ||
| + | | ################################ | ||
| + | | | node7 (0/ | ||
| + | | | inode11 (0/ | ||
| + | | | inode12 (0/?? | ||
| + | | | inode13 (0/ | ||
| + | | | inode14 (0/ | ||
| + | | | inode15 (0/?? | ||
| + | | | inode16 (0/ | ||
| + | | | inode17 (0/?? | ||
| + | | | inode18 (0/?? | ||
| + | | ## | inode19 (2/ | ||
| + | | ############################ | ||
| + | +----------------------------------+-------------------+ | ||
| + | | ############## | ||
| + | +----------------------------------+-------------------+ | ||
| + | </ | ||
| + | |||
| + | Para obtener información sobre los usuarios que se encuentran en cada nodo, se puede utilizar el comando '' | ||
| + | |||
| + | <code bash> | ||
| + | $ node-users node1 | ||
| + | Tracing node jobs................................................................... | ||
| + | jorge.suarez natalia.fernandez | ||
| + | </ | ||
| + | |||
| + | Para obtener información más detallada sobre los nodos, se puede utilizar el comando '' | ||
| + | |||
| <code bash> | <code bash> | ||
| ct$ pbsnodes | ct$ pbsnodes | ||
| Línea 140: | Línea 259: | ||
| ===== Eliminar un trabajo de la cola ===== | ===== Eliminar un trabajo de la cola ===== | ||
| - | + | ------------- | |
| - | El comando '' | + | El comando '' |
| < | < | ||