Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:centro:servizos:hpc:envio_trabajo [2018/09/19 13:33] – created fernando.guillenen:centro:servizos:hpc:envio_trabajo [2018/09/20 10:20] (current) fernando.guillen
Line 1: Line 1:
-====== Envío y gestión de los trabajos ======+====== Submit and manage jobs ======
  
-===== Enviar los trabajos al sistema de colas =====+===== Submit jobs to the queue =====
 -------------- --------------
-El envío de trabajos se realiza a través del comando qsub, cuyo argumento obligatorio es el nombre de un script de shell. +Job submission its done with the qsub command which has one mandatory parameter of a shell script's name
 <code> <code>
 ct$ qsub script.sh ct$ qsub script.sh
 </code> </code>
-El comando qsub admite como parámetros las mismas opciones que pueden indicarse como comentarios #PBS en el script.+The qsub command admits as parameters the same options that can be used as #PBS comments in the scripts.
  
-===== Consultar el estado del trabajolas colas o los nodos =====+===== Check jobqueue or node state =====
 --------------- ---------------
-==== Información de las colas ==== +==== Queue information ==== 
-El comando ''qstat'' permite consultar el estado de las colas+The ''qstat'' command shows the queue status
    
 <code bash> <code bash>
-ct$ qstat -q # Información global de las colas+ct$ qstat -q # Global queue information
 server: ctcomp2 server: ctcomp2
  
Line 40: Line 40:
                                                        0                                                        0
 </code> </code>
-La columna State indica con su primera letra si la cola está (E)nabled (D)isabled y con la segunda letra si la cola está (R)unning (S)topped.+The first letter of the state column indicates if the queue is (E)nabled or (D)isabled and the second letter if the queue is (R)unning or (S)topped.
  
-==== Información de los trabajos ==== +==== Jo information ==== 
-Cada vez que se envía un trabajo se le asigna un JOB_ID que sirve como identificador únicoSi el trabajo se envió con la opción -t entonces se identificará mediante ''job_id[indice]''.+Each time a job is assigned a JOB_ID that is used as a unique identifierIf the job was sent with the -t option then it is going to be identified by ''job_id[indice]''.
  
 <code bash> <code bash>
Line 49: Line 49:
 Job id                    Name             User               Time Use S Queue Job id                    Name             User               Time Use S Queue
 ------------------------- ---------------- ---------------    -------- - ----- ------------------------- ---------------- ---------------    -------- - -----
-999999.ctcomp2            nombre_del_trabajo nombre_usuario   38:05:59 R np32       +999999.ctcomp2            job_name         user_name          38:05:59 R np32       
 </code> </code>
-La columna Time Use muestra el tiempo de CPU usado+The Time Use column shows the CPU time used
-La columna es el estado del trabajoque puede ser uno de los siguientes:+The column is the job statewhich can be one of the following:
                  C -  Job is completed after having run                  C -  Job is completed after having run
                  E -  Job is exiting after having run.                  E -  Job is exiting after having run.
Line 62: Line 62:
  
 <code bash> <code bash>
-ct$ qstat -f 999999.ctcomp2   # Información sobre un trabajo específico+ct$ qstat -f 999999.ctcomp2   # Specific job info
 Job Id: 999999.ctcomp2.innet Job Id: 999999.ctcomp2.innet
-    Job_Name = nombre_del_trabajo +    Job_Name = job_name 
-    Job_Owner = nombre_usuario@ctcomp2.innet+    Job_Owner = user_name@ctcomp2.innet
     job_state = Q     job_state = Q
     queue = np32     queue = np32
Line 71: Line 71:
     Checkpoint = u     Checkpoint = u
     ctime = Fri Feb 12 10:09:34 2016     ctime = Fri Feb 12 10:09:34 2016
-    Error_Path = ctcomp2.innet:/home/local/nombre_usuario/nombre_del_trabajo.e999999+    Error_Path = ctcomp2.innet:/home/local/user_name/job_name.e999999
     Hold_Types = n     Hold_Types = n
     Join_Path = n     Join_Path = n
Line 78: Line 78:
     Mail_Users = nombre_usuario@usc.es     Mail_Users = nombre_usuario@usc.es
     mtime = Fri Feb 12 10:09:34 2016     mtime = Fri Feb 12 10:09:34 2016
-    Output_Path = ctcomp2.innet:/home/local/nombre_usuario/nombre_trabajo.o999999+    Output_Path = ctcomp2.innet:/home/local/user_name/job_name.o999999
     Priority = 0     Priority = 0
     qtime = Fri Feb 12 10:09:34 2016     qtime = Fri Feb 12 10:09:34 2016
Line 88: Line 88:
     Resource_List.walltime = 12:00:00     Resource_List.walltime = 12:00:00
     substate = 10     substate = 10
-    Variable_List = PBS_O_QUEUE=batch,PBS_O_HOME=/home/local/nombre_usuario,+    Variable_List = PBS_O_QUEUE=batch,PBS_O_HOME=/home/local/user_name,
  PBS_O_LOGNAME=nombre_usuario,  PBS_O_LOGNAME=nombre_usuario,
  PBS_O_PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games,  PBS_O_PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games,
  PBS_O_MAIL=/var/mail/nombre_usuario,PBS_O_SHELL=/bin/bash,  PBS_O_MAIL=/var/mail/nombre_usuario,PBS_O_SHELL=/bin/bash,
- PBS_O_LANG=es_ES.UTF-8,PBS_O_WORKDIR=/home/local/nombre_usuario,+ PBS_O_LANG=es_ES.UTF-8,PBS_O_WORKDIR=/home/local/user_name,
  PBS_O_HOST=ctcomp2.innet,PBS_O_SERVER=ctcomp2  PBS_O_HOST=ctcomp2.innet,PBS_O_SERVER=ctcomp2
-    euser = nombre_usuario+    euser = user_name
     egroup = citius     egroup = citius
     queue_rank = 2110     queue_rank = 2110
Line 105: Line 105:
  
 </code> </code>
-Una característica interesante de los trabajos finalizados es el EXIT_STATUS que se mostraría cuando el JOB_STATE es C.  +An interesting characteristic about the finished jobs is the EXIT_STATUS which should be shown when JOB_STATE is  C.  
-^  Código interno       ^  Valor de EXIT_STATUS  ^  Significado                                                                       ^+^  Internal code       ^  EXIT_STATUS value ^  Meaning                                                                       ^
 |  JOB_EXEC_OVERLIMIT    -10                                                                                                      | |  JOB_EXEC_OVERLIMIT    -10                                                                                                      |
 |  JOB_EXEC_STDOUTFAIL  |  -9                    |                                                                                    | |  JOB_EXEC_STDOUTFAIL  |  -9                    |                                                                                    |
Line 119: Line 119:
 |  JOB_EXEC_OK          |  0                      Job execution successful                                                          | |  JOB_EXEC_OK          |  0                      Job execution successful                                                          |
 |                        1-256                  Exit status of the top-level shell                                                | |                        1-256                  Exit status of the top-level shell                                                |
-|                        >256                  |  Trabajo terminado por una señal UNIX, restarle 256 nos da el número de la señal.  |+|                        >256                  |  Job ended by a UNIX signalsubstracting 256 results in the signal number.  |
  
 <code bash> <code bash>
-ct$ checkjob 999999.ctcomp2                # Información sobre un trabajo específico+ct$ checkjob 999999.ctcomp2                # Info about a specific job
  
 checking job 999999 checking job 999999
  
 State: Running State: Running
-Creds:  user:nombre_usuario  group:citius  class:np32  qos:DEFAULT+Creds:  user:user_name  group:citius  class:np32  qos:DEFAULT
 WallTime: 00:25:46 of 12:00:00 WallTime: 00:25:46 of 12:00:00
 SubmitTime: Tue Feb 16 10:40:31 SubmitTime: Tue Feb 16 10:40:31
Line 152: Line 152:
  
 <code bash> <code bash>
-ct$ tracejob -n 3 999999.ctcomp2   # Devuelve el contenido de los logs relativos al jobid indicado.+ct$ tracejob -n 3 999999.ctcomp2   # Shows the log content related to the indicated jobid.
 Job: 136553.ctcomp2.innet Job: 136553.ctcomp2.innet
  
Line 162: Line 162:
 02/10/2016 15:22:26  A    queue=batch 02/10/2016 15:22:26  A    queue=batch
 02/10/2016 15:22:26  A    queue=np1 02/10/2016 15:22:26  A    queue=np1
-02/10/2016 15:22:26  A    user=nombre_usuario group=citius +02/10/2016 15:22:26  A    user=user_name group=citius 
-                          jobname=nombre_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00+                          jobname=job_name queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=user_name@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00
 02/10/2016 16:08:34  S    Exit_status=0 resources_used.cput=00:46:14 02/10/2016 16:08:34  S    Exit_status=0 resources_used.cput=00:46:14
                           resources_used.mem=234868kb resources_used.vmem=1002480kb                           resources_used.mem=234868kb resources_used.vmem=1002480kb
                           resources_used.walltime=00:46:08                           resources_used.walltime=00:46:08
 02/10/2016 16:08:34  S    on_job_exit valid pjob: 999999.ctcomp2.innet (substate=50) 02/10/2016 16:08:34  S    on_job_exit valid pjob: 999999.ctcomp2.innet (substate=50)
-02/10/2016 16:08:34  A    user=nombre_usuario group=citius jobname=nombre_trabajo queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00 session=7304 end=1455116914 Exit_status=0 resources_used.cput=00:46:14 resources_used.mem=234868kb resources_used.vmem=1002480kb resources_used.walltime=00:46:08+02/10/2016 16:08:34  A    user=user_name group=citius jobname=job_name queue=np1 ctime=1455114146 qtime=1455114146 etime=1455114146 start=1455114146 owner=nombre_usuario@ctcomp2.innet exec_host=inode19/24 Resource_List.neednodes=1:ppn=1 Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.vmem=2040mb Resource_List.walltime=12:00:00 session=7304 end=1455116914 Exit_status=0 resources_used.cput=00:46:14 resources_used.mem=234868kb resources_used.vmem=1002480kb resources_used.walltime=00:46:08
 02/10/2016 17:08:35  S    dequeuing from np1, state COMPLETE 02/10/2016 17:08:35  S    dequeuing from np1, state COMPLETE
 </code> </code>
  
  
-==== Información de los nodos ==== +==== Node info ==== 
-Para obtener una vista global del estado del cluster se puede utilizar el comando ''nodes-usage''.+To get a global view of the cluster state the command ''nodes-usage'' can be used.
 <code bash> <code bash>
 $ nodes-usage $ nodes-usage
Line 202: Line 202:
 </code> </code>
  
-Para obtener información sobre los usuarios que se encuentran en cada nodose puede utilizar el comando ''node-users <nodo>'':+To get information of the users in each nodethe ''node-users <node>'' command can be used:
  
 <code bash> <code bash>
Line 210: Line 210:
 </code> </code>
  
-Para obtener información más detallada sobre los nodosse puede utilizar el comando ''pnbsnodes'':+To get more detailed information on the nodesthe ''pnbsnodes'' command can be used:
  
 <code bash> <code bash>
-ct$ pbsnodes  #Información detallada de todos los nodos+ct$ pbsnodes  #Detailed information on all nodes
 node1 node1
      state = free      state = free
Line 238: Line 238:
  
 <code bash> <code bash>
-ct$ pbsnodes -l  # Listado de los nodos apagados(down) o no disponibles(offline)+ct$ pbsnodes -l  # Shutdown node list(down) or not available(offline)
 node2                down,offline node2                down,offline
 node3                down,offline node3                down,offline
Line 258: Line 258:
  
  
-===== Eliminar un trabajo de la cola =====+===== Cancel a job from the queue =====
 ------------- -------------
-El comando ''qdel'' permite al usuario eliminar un trabajoFunciona enviándole primero una señal TERM y luego una KILL. Este comando necesita como argumento el identificador que PBS le asigna cuando se registra un nuevo trabajoy que se puede consultar con ''qstat''.+The ''qdel'' command allows the user to erase a jobIt works by sending first a TERM and then a KILL signalThis command needs the PBS identifier assigned to the job as an argumentit can be seen using the ''qstat'' command.
  
 <code> <code>