Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
es:centro:servizos:hpc:envio_trabajo [2016/02/12 10:10] – [Consultar cola] fernando.guillen | es:centro:servizos:hpc:envio_trabajo [2017/10/09 11:13] (actual) – [Table] diego.cougil | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
- | [[ es: | ||
- | |||
====== Envío y gestión de los trabajos ====== | ====== Envío y gestión de los trabajos ====== | ||
- | <note tip> | + | |
- | Para todos los comandos mencionados en esta página existe la correspondiente página del MAN. | + | |
- | </ | + | |
===== Enviar los trabajos al sistema de colas ===== | ===== Enviar los trabajos al sistema de colas ===== | ||
+ | -------------- | ||
El envío de trabajos se realiza a través del comando qsub, cuyo argumento obligatorio es el nombre de un script de shell. | El envío de trabajos se realiza a través del comando qsub, cuyo argumento obligatorio es el nombre de un script de shell. | ||
< | < | ||
Línea 13: | Línea 10: | ||
===== Consultar el estado del trabajo, las colas o los nodos ===== | ===== Consultar el estado del trabajo, las colas o los nodos ===== | ||
- | Los comandos | + | --------------- |
+ | ==== Información de las colas ==== | ||
+ | El comando | ||
- | <code bash> | ||
- | ct$ qstat # Información de los trabajos de usuario | ||
- | Job id Name | ||
- | ------------------------- ---------------- --------------- | ||
- | 999999.ctcomp2 | ||
- | |||
- | </ | ||
- | |||
- | |||
<code bash> | <code bash> | ||
ct$ qstat -q # Información global de las colas | ct$ qstat -q # Información global de las colas | ||
Línea 50: | Línea 40: | ||
| | ||
</ | </ | ||
+ | La columna State indica con su primera letra si la cola está (E)nabled o (D)isabled y con la segunda letra si la cola está (R)unning o (S)topped. | ||
+ | |||
+ | ==== Información de los trabajos ==== | ||
+ | Cada vez que se envía un trabajo se le asigna un JOB_ID que sirve como identificador único. Si el trabajo se envió con la opción -t entonces se identificará mediante '' | ||
+ | |||
+ | <code bash> | ||
+ | ct$ qstat # Información general de los trabajos de usuario | ||
+ | Job id Name | ||
+ | ------------------------- ---------------- --------------- | ||
+ | 999999.ctcomp2 | ||
+ | </ | ||
+ | La columna Time Use muestra el tiempo de CPU usado. | ||
+ | La columna S es el estado del trabajo, que puede ser uno de los siguientes: | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | |||
+ | <code bash> | ||
+ | ct$ qstat -f 999999.ctcomp2 | ||
+ | Job Id: 999999.ctcomp2.innet | ||
+ | Job_Name = nombre_del_trabajo | ||
+ | Job_Owner = nombre_usuario@ctcomp2.innet | ||
+ | job_state = Q | ||
+ | queue = np32 | ||
+ | server = ctcomp2.innet | ||
+ | Checkpoint = u | ||
+ | ctime = Fri Feb 12 10:09:34 2016 | ||
+ | Error_Path = ctcomp2.innet:/ | ||
+ | Hold_Types = n | ||
+ | Join_Path = n | ||
+ | Keep_Files = n | ||
+ | Mail_Points = ae | ||
+ | Mail_Users = nombre_usuario@usc.es | ||
+ | mtime = Fri Feb 12 10:09:34 2016 | ||
+ | Output_Path = ctcomp2.innet:/ | ||
+ | Priority = 0 | ||
+ | qtime = Fri Feb 12 10:09:34 2016 | ||
+ | Rerunable = True | ||
+ | Resource_List.neednodes = 1: | ||
+ | Resource_List.nodect = 1 | ||
+ | Resource_List.nodes = 1: | ||
+ | Resource_List.vmem = 63gb | ||
+ | Resource_List.walltime = 12:00:00 | ||
+ | substate = 10 | ||
+ | Variable_List = PBS_O_QUEUE=batch, | ||
+ | PBS_O_LOGNAME=nombre_usuario, | ||
+ | PBS_O_PATH=/ | ||
+ | PBS_O_MAIL=/ | ||
+ | PBS_O_LANG=es_ES.UTF-8, | ||
+ | PBS_O_HOST=ctcomp2.innet, | ||
+ | euser = nombre_usuario | ||
+ | egroup = citius | ||
+ | queue_rank = 2110 | ||
+ | queue_type = E | ||
+ | etime = Fri Feb 12 10:09:34 2016 | ||
+ | submit_args = script.sh | ||
+ | fault_tolerant = False | ||
+ | job_radix = 0 | ||
+ | submit_host = ctcomp2.innet | ||
+ | |||
+ | </ | ||
+ | Una característica interesante de los trabajos finalizados es el EXIT_STATUS que se mostraría cuando el JOB_STATE es C. | ||
+ | ^ Código interno | ||
+ | | JOB_EXEC_OVERLIMIT | ||
+ | | JOB_EXEC_STDOUTFAIL | ||
+ | | JOB_EXEC_CMDFAIL | ||
+ | | JOB_EXEC_BADRESRT | ||
+ | | JOB_EXEC_INITRMG | ||
+ | | JOB_EXEC_INITRST | ||
+ | | JOB_EXEC_INITABT | ||
+ | | JOB_EXEC_RETRY | ||
+ | | JOB_EXEC_FAIL2 | ||
+ | | JOB_EXEC_FAIL1 | ||
+ | | JOB_EXEC_OK | ||
+ | | | ||
+ | | | ||
+ | |||
+ | <code bash> | ||
+ | ct$ checkjob 999999.ctcomp2 | ||
+ | |||
+ | checking job 999999 | ||
+ | |||
+ | State: Running | ||
+ | Creds: | ||
+ | WallTime: 00:25:46 of 12:00:00 | ||
+ | SubmitTime: Tue Feb 16 10:40:31 | ||
+ | (Time Queued | ||
+ | |||
+ | StartTime: Tue Feb 16 10:40:32 | ||
+ | Total Tasks: 32 | ||
+ | |||
+ | Req[0] | ||
+ | Network: [NONE] | ||
+ | Opsys: [NONE] | ||
+ | Allocated Nodes: | ||
+ | [inode15: | ||
+ | |||
+ | |||
+ | IWD: [NONE] | ||
+ | Bypass: 0 StartCount: 1 | ||
+ | PartitionMask: | ||
+ | Flags: | ||
+ | |||
+ | Reservation ' | ||
+ | PE: 32.00 StartPriority: | ||
+ | </ | ||
+ | |||
+ | <code bash> | ||
+ | ct$ tracejob -n 3 999999.ctcomp2 | ||
+ | Job: 136553.ctcomp2.innet | ||
+ | |||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | 02/10/2016 15: | ||
+ | jobname=nombre_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/ | ||
+ | 02/10/2016 16: | ||
+ | resources_used.mem=234868kb resources_used.vmem=1002480kb | ||
+ | resources_used.walltime=00: | ||
+ | 02/10/2016 16: | ||
+ | 02/10/2016 16: | ||
+ | 02/10/2016 17: | ||
+ | </ | ||
+ | |||
+ | |||
+ | ==== Información de los nodos ==== | ||
+ | Para obtener una vista global del estado del cluster se puede utilizar el comando '' | ||
+ | <code bash> | ||
+ | $ nodes-usage | ||
+ | +----------------------------------+-------------------+ | ||
+ | | USAGE | NODE | | ||
+ | +----------------------------------+-------------------+ | ||
+ | | ################################ | ||
+ | | ################################ | ||
+ | | | node3 (0/ | ||
+ | | ################################ | ||
+ | | | node5 (0/ | ||
+ | | ################################ | ||
+ | | | node7 (0/ | ||
+ | | | inode11 (0/ | ||
+ | | | inode12 (0/?? | ||
+ | | | inode13 (0/ | ||
+ | | | inode14 (0/ | ||
+ | | | inode15 (0/?? | ||
+ | | | inode16 (0/ | ||
+ | | | inode17 (0/?? | ||
+ | | | inode18 (0/?? | ||
+ | | ## | inode19 (2/ | ||
+ | | ############################ | ||
+ | +----------------------------------+-------------------+ | ||
+ | | ############## | ||
+ | +----------------------------------+-------------------+ | ||
+ | </ | ||
+ | |||
+ | Para obtener información sobre los usuarios que se encuentran en cada nodo, se puede utilizar el comando '' | ||
+ | |||
+ | <code bash> | ||
+ | $ node-users node1 | ||
+ | Tracing node jobs................................................................... | ||
+ | jorge.suarez natalia.fernandez | ||
+ | </ | ||
+ | |||
+ | Para obtener información más detallada sobre los nodos, se puede utilizar el comando '' | ||
+ | |||
<code bash> | <code bash> | ||
ct$ pbsnodes | ct$ pbsnodes | ||
Línea 97: | Línea 259: | ||
===== Eliminar un trabajo de la cola ===== | ===== Eliminar un trabajo de la cola ===== | ||
- | + | ------------- | |
- | El comando '' | + | El comando '' |
< | < |