Xestión de erros relativos a traballos

Se un traballo se queda nun estado inconsistente que non permite ser eliminado polo shepherd correspondente podese acceder ao nodo e comprobar / cancelar o traballo para liberar os recursos.

Para isto accederemos ao nodo empregando rsh. Para identificar o traballo axudarémonos do comando ps aux –forest que nos proporcionará unha saída similar a seguinte:

...
root      2052  0.0  0.0   5928   620 tty6     Ss+  Feb10   0:00 /sbin/getty 38400 tty6
1001     14552  0.1  0.0  33424  3104 ?        Sl   11:22   0:33 /opt/sge6.2u5/bin/lx24-amd64/sge_execd
1001     15473  0.0  0.0  22528  1652 ?        S    12:01   0:00  \_ sge_shepherd-1994 -bg
2020     15476  0.0  0.0  19048  1632 ?        Ss   12:01   0:00  |   \_ -bash /opt/sge6.2u5/default/spool/workian10/job_...
2020     15612  108  1.6 2429156 1108812 ?     Sl   12:01 276:41  |       \_ executable.exe:
1001     15559  0.0  0.0  22532  1652 ?        S    12:01   0:00  \_ sge_shepherd-1997 -bg
...

Para identificar o traballo que queremos matar, debemos comprobar o sufixo dos procesos sge_shepherd-XXXX, no cal o XXXX representa o jobid en SGE. Con esta información podemos analizar o estado de execución dos traballos e matalos de ser necesario (deberíase matar o executable – ou o mpirun de ser un traballo mpi) para deixar o sge no estado máis estable posible.

Error relativos a nodos

Se un nodo non mostra un estado consistente co master podemos reiniciar o servizo de sge_execd para restaurar o estado.

/etc/init.d/sgeexecd.sgedec help
Grid Engine start/stop script. Valid parameters are:

   (no parameters): start execution daemon if applicable
   "start"        dto.
   "stop"         shutdown local Grid Engine processes and jobs
   "softstop"     shutdown local Grid Engine processes (no jobs)
   "-nosmf"       force no SMF

Only one of the parameters "start", "stop" or "softstop" is allowed.

Default argument is "start" for all components.
Default for "stop" is shutting down all components.

Pararemolo con stop ou softstop, e iniciarémolo de novo con start.