Se un traballo se queda nun estado inconsistente que non permite ser eliminado polo shepherd correspondente podese acceder ao nodo e comprobar / cancelar o traballo para liberar os recursos.
Para isto accederemos ao nodo empregando rsh. Para identificar o traballo axudarémonos do comando ps aux –forest
que nos proporcionará unha saída similar a seguinte:
... root 2052 0.0 0.0 5928 620 tty6 Ss+ Feb10 0:00 /sbin/getty 38400 tty6 1001 14552 0.1 0.0 33424 3104 ? Sl 11:22 0:33 /opt/sge6.2u5/bin/lx24-amd64/sge_execd 1001 15473 0.0 0.0 22528 1652 ? S 12:01 0:00 \_ sge_shepherd-1994 -bg 2020 15476 0.0 0.0 19048 1632 ? Ss 12:01 0:00 | \_ -bash /opt/sge6.2u5/default/spool/workian10/job_... 2020 15612 108 1.6 2429156 1108812 ? Sl 12:01 276:41 | \_ executable.exe: 1001 15559 0.0 0.0 22532 1652 ? S 12:01 0:00 \_ sge_shepherd-1997 -bg ...
Para identificar o traballo que queremos matar, debemos comprobar o sufixo dos procesos sge_shepherd-XXXX, no cal o XXXX representa o jobid en SGE. Con esta información podemos analizar o estado de execución dos traballos e matalos de ser necesario (deberíase matar o executable – ou o mpirun de ser un traballo mpi) para deixar o sge no estado máis estable posible.
Se un nodo non mostra un estado consistente co master podemos reiniciar o servizo de sge_execd para restaurar o estado.
/etc/init.d/sgeexecd.sgedec help Grid Engine start/stop script. Valid parameters are: (no parameters): start execution daemon if applicable "start" dto. "stop" shutdown local Grid Engine processes and jobs "softstop" shutdown local Grid Engine processes (no jobs) "-nosmf" force no SMF Only one of the parameters "start", "stop" or "softstop" is allowed. Default argument is "start" for all components. Default for "stop" is shutting down all components.
Pararemolo con stop ou softstop, e iniciarémolo de novo con start.