Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

Enlazar a esta vista de comparación

Both sides previous revisionPrevious revision
Next revision
Previous revision
centro:servizos:hpc:envio_trabajo [2017/06/16 14:20] jorge.suarezcentro:servizos:hpc:envio_trabajo [2017/10/09 11:29] (actual) – [Eliminar un traballo da cola] diego.cougil
Liña 1: Liña 1:
-====== Envío y gestión de los trabajos ====== +====== Envío e xestión dos traballos ====== 
-<note tip> + 
-Para todos los comandos mencionados en esta página existe la correspondiente página del MAN. +===== Enviar os traballos ao sistema de colas =====
-</note> +
-===== Enviar los trabajos al sistema de colas =====+
 -------------- --------------
-El envío de trabajos se realiza a través del comando qsub, cuyo argumento obligatorio es el nombre de un script de shell. +envío de traballos realízase a través do comando qsub, cuxo argumento obrigatorio é o nome dun script de shell. 
 <code> <code>
 ct$ qsub script.sh ct$ qsub script.sh
 </code> </code>
-El comando qsub admite como parámetros las mismas opciones que pueden indicarse como comentarios #PBS en el script.+comando qsub admite como parámetros as mesmas opcións que poden indicarse como comentarios #PBS no script.
  
-===== Consultar el estado del trabajolas colas o los nodos =====+===== Consultar estado do traballoas colas ou os nodos =====
 --------------- ---------------
-==== Información de las colas ==== +==== Información das colas ==== 
-El comando ''qstat'' permite consultar el estado de las colas, +comando ''qstat'' permite consultar estado das colas, 
    
 <code bash> <code bash>
-ct$ qstat -q # Información global de las colas+ct$ qstat -q # Información global das colas
 server: ctcomp2 server: ctcomp2
  
Liña 42: Liña 40:
                                                        0                                                        0
 </code> </code>
-La columna State indica con su primera letra si la cola está (E)nabled (D)isabled y con la segunda letra si la cola está (R)unning (S)topped.+columna State indica coa súa primeira letra se a cola está (E)nabled ou (D)isabled e coa segunda letra se a cola está (R)unning ou (S)topped.
  
-==== Información de los trabajos ==== +==== Información dos traballos ==== 
-Cada vez que se envía un trabajo se le asigna un JOB_ID que sirve como identificador único. Si el trabajo se envió con la opción -t entonces se identificará mediante ''job_id[indice]''.+Cada vez que se envía un traballo asígnaselle un JOB_ID que serve como identificador único. Se o traballo enviouse coa opción -t entón identificarase mediante  ''job_id[indice]''.
  
 <code bash> <code bash>
-ct$ qstat  # Información general de los trabajos de usuario +ct$ qstat  # Información xeral dos traballos de usuario 
 Job id                    Name             User               Time Use S Queue Job id                    Name             User               Time Use S Queue
 ------------------------- ---------------- ---------------    -------- - ----- ------------------------- ---------------- ---------------    -------- - -----
-999999.ctcomp2            nombre_del_trabajo nombre_usuario   38:05:59 R np32       +999999.ctcomp2            nome_do_traballo nome_usuario   38:05:59 R np32       
 </code> </code>
-La columna Time Use muestra el tiempo de CPU usado+columna Time Use amosa o tempo de CPU empregado
-La columna S es el estado del trabajo, que puede ser uno de los siguientes:+columna S é o estado do traballo, que pode ser un dos seguintes:
                  C -  Job is completed after having run                  C -  Job is completed after having run
                  E -  Job is exiting after having run.                  E -  Job is exiting after having run.
Liña 64: Liña 62:
  
 <code bash> <code bash>
-ct$ qstat -f 999999.ctcomp2   # Información sobre un trabajo específico+ct$ qstat -f 999999.ctcomp2   # Información sobre un traballo específico
 Job Id: 999999.ctcomp2.innet Job Id: 999999.ctcomp2.innet
-    Job_Name = nombre_del_trabajo +    Job_Name = nombre_do_traballo 
-    Job_Owner = nombre_usuario@ctcomp2.innet+    Job_Owner = nome_usuario@ctcomp2.innet
     job_state = Q     job_state = Q
     queue = np32     queue = np32
Liña 73: Liña 71:
     Checkpoint = u     Checkpoint = u
     ctime = Fri Feb 12 10:09:34 2016     ctime = Fri Feb 12 10:09:34 2016
-    Error_Path = ctcomp2.innet:/home/local/nombre_usuario/nombre_del_trabajo.e999999+    Error_Path = ctcomp2.innet:/home/local/nome_usuario/nome_do_traballo.e999999
     Hold_Types = n     Hold_Types = n
     Join_Path = n     Join_Path = n
Liña 80: Liña 78:
     Mail_Users = nombre_usuario@usc.es     Mail_Users = nombre_usuario@usc.es
     mtime = Fri Feb 12 10:09:34 2016     mtime = Fri Feb 12 10:09:34 2016
-    Output_Path = ctcomp2.innet:/home/local/nombre_usuario/nombre_trabajo.o999999+    Output_Path = ctcomp2.innet:/home/local/nome_usuario/nome_traballo.o999999
     Priority = 0     Priority = 0
     qtime = Fri Feb 12 10:09:34 2016     qtime = Fri Feb 12 10:09:34 2016
Liña 90: Liña 88:
     Resource_List.walltime = 12:00:00     Resource_List.walltime = 12:00:00
     substate = 10     substate = 10
-    Variable_List = PBS_O_QUEUE=batch,PBS_O_HOME=/home/local/nombre_usuario+    Variable_List = PBS_O_QUEUE=batch,PBS_O_HOME=/home/local/nome_usuario
- PBS_O_LOGNAME=nombre_usuario,+ PBS_O_LOGNAME=nome_usuario,
  PBS_O_PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games,  PBS_O_PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games,
- PBS_O_MAIL=/var/mail/nombre_usuario,PBS_O_SHELL=/bin/bash, + PBS_O_MAIL=/var/mail/nome_usuario,PBS_O_SHELL=/bin/bash, 
- PBS_O_LANG=es_ES.UTF-8,PBS_O_WORKDIR=/home/local/nombre_usuario,+ PBS_O_LANG=es_ES.UTF-8,PBS_O_WORKDIR=/home/local/nome_usuario,
  PBS_O_HOST=ctcomp2.innet,PBS_O_SERVER=ctcomp2  PBS_O_HOST=ctcomp2.innet,PBS_O_SERVER=ctcomp2
-    euser = nombre_usuario+    euser = nome_usuario
     egroup = citius     egroup = citius
     queue_rank = 2110     queue_rank = 2110
Liña 107: Liña 105:
  
 </code> </code>
-Una característica interesante de los trabajos finalizados es el EXIT_STATUS que se mostraría cuando el JOB_STATE es C.  +Unha característica interesante dos traballos rematados é o EXIT_STATUS que se amosaría cando el JOB_STATE es C.  
-^  Codigo interno  ^  Valor de EXIT_STATUS  ^  Significado  ^+^  Código interno  ^  Valor de EXIT_STATUS  ^  Significado  ^
 |  JOB_EXEC_OVERLIMIT |  -10 |     | |  JOB_EXEC_OVERLIMIT |  -10 |     |
 |  JOB_EXEC_STDOUTFAIL |  -9 |     | |  JOB_EXEC_STDOUTFAIL |  -9 |     |
Liña 121: Liña 119:
 |  JOB_EXEC_OK                    0 |  Job execution successful  | |  JOB_EXEC_OK                    0 |  Job execution successful  |
 |      |   1-256      Exit status of the top-level shell    | |      |   1-256      Exit status of the top-level shell    |
-|      |   >256      Trabajo terminado por una señal UNIX, restarle 256 nos da el número de la señal.  |+|      |   >256      Traballo rematado por unha sinal UNIX, restarlle 256 dános o número do sinal.  |
  
 <code bash> <code bash>
-ct$ checkjob 999999.ctcomp2                # Información sobre un trabajo específico+ct$ checkjob 999999.ctcomp2                # Información sobre un traballo específico
  
 checking job 999999 checking job 999999
Liña 154: Liña 152:
  
 <code bash> <code bash>
-ct$ tracejob -n 3 999999.ctcomp2   # Devuelve el contenido de los logs relativos al jobid indicado.+ct$ tracejob -n 3 999999.ctcomp2   # Devolve o contido dos logs relativos ao jobid indicado.
 Job: 136553.ctcomp2.innet Job: 136553.ctcomp2.innet
  
Liña 164: Liña 162:
 02/10/2016 15:22:26  A    queue=batch 02/10/2016 15:22:26  A    queue=batch
 02/10/2016 15:22:26  A    queue=np1 02/10/2016 15:22:26  A    queue=np1
-02/10/2016 15:22:26  A    user=nombre_usuario group=citius +02/10/2016 15:22:26  A    user=nome_usuario group=citius 
-                          jobname=nombre_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00+                          jobname=nome_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00
 02/10/2016 16:08:34  S    Exit_status=0 resources_used.cput=00:46:14 02/10/2016 16:08:34  S    Exit_status=0 resources_used.cput=00:46:14
                           resources_used.mem=234868kb resources_used.vmem=1002480kb                           resources_used.mem=234868kb resources_used.vmem=1002480kb
                           resources_used.walltime=00:46:08                           resources_used.walltime=00:46:08
 02/10/2016 16:08:34  S    on_job_exit valid pjob: 999999.ctcomp2.innet (substate=50) 02/10/2016 16:08:34  S    on_job_exit valid pjob: 999999.ctcomp2.innet (substate=50)
-02/10/2016 16:08:34  A    user=nombre_usuario group=citius jobname=nombre_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00 session=7304 end=1455116914 Exit_status=0 resources_used.cput=00:46:14 resources_used.mem=234868kb resources_used.vmem=1002480kb resources_used.walltime=00:46:08+02/10/2016 16:08:34  A    user=nome_usuario group=citius jobname=nome_traballo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00 session=7304 end=1455116914 Exit_status=0 resources_used.cput=00:46:14 resources_used.mem=234868kb resources_used.vmem=1002480kb resources_used.walltime=00:46:08
 02/10/2016 17:08:35  S    dequeuing from np1, state COMPLETE 02/10/2016 17:08:35  S    dequeuing from np1, state COMPLETE
 </code> </code>
  
  
-==== Información de los nodos ==== +==== Información dos nodos ==== 
-Para obtener una vista global del estado del cluster se puede utilizar el comando ''nodes-usage''.+Para obter unha vista global do estado do clúster, pódese empregar o comando ''nodes-usage''.
 <code bash> <code bash>
 $ nodes-usage $ nodes-usage
Liña 204: Liña 202:
 </code> </code>
  
-Para obtener información sobre los usuarios que se encuentran en cada nodo, se puede utilizar el comando ''node-users <nodo>'':+Para obter información sobre os usuarios que se atopan en cada nodo, pódese empregar o comando ''node-users <nodo>'':
  
 <code bash> <code bash>
Liña 212: Liña 210:
 </code> </code>
  
-Para obtener información más detallada sobre los nodos, se puede utilizar el comando ''pnbsnodes'':+Para obter información máis detallada sobre os nodos, pódese empregar o comando ''pnbsnodes'':
  
-El comando ''pnbsnodes'' da información sobre los nodos. 
 <code bash> <code bash>
-ct$ pbsnodes  #Información detallada de todos los nodos+ct$ pbsnodes  #Información detallada de todos os nodos
 node1 node1
      state = free      state = free
Liña 241: Liña 238:
  
 <code bash> <code bash>
-ct$ pbsnodes -l  # Listado de los nodos apagados(down) o no disponibles(offline)+ct$ pbsnodes -l  # Listaxe dos nodos apagados(down) ou non dispoñibles(offline)
 node2                down,offline node2                down,offline
 node3                down,offline node3                down,offline
Liña 261: Liña 258:
  
  
-===== Eliminar un trabajo de la cola =====+===== Eliminar un traballo da cola =====
 ------------- -------------
-El comando ''qdel'' permite al usuario eliminar un trabajo. Funciona enviándole primero una señal TERM y luego una KILL. Este comando necesita como argumento el identificador que PBS le asigna cuando se registra un nuevo trabajoque se puede consultar con ''qstat''. +comando ''qdel'' permite ao usuario eliminar un traballo. Funciona enviándolle primeiro un sinal TERM e despois unha KILL. Este comando precisa como argumento identificador que PBS asígnalle cando se rexistra un novo traballoque pode consultarse con ''qstat''.
 <code> <code>
 ct$ qdel job_id ct$ qdel job_id