Hi,<div><br></div><div>we are using Torque 2.3.6 and Moab 5.3.5.</div><div><br></div><div>Sometimes pbs_mom fails to clean the processes created by some parallel jobs.</div><div>It happens always with the same kind of jobs from the same users. The executables running on that </div>
<div>jobs are compiled with openmpi 1.2.5 (that is compiled with Task Manager support --with-tm).</div><div>Please note that most of the executables running on our cluster are compiled with that version of openmpi </div><div>
and they are correctly killed by MOMs as the job they belong to is removed/terminated.</div><div><br></div><div>The tracejob command of the Torque server, the master mom and a typical sister mom looks as follows:</div><div>
<br></div><div>====================== SERVER ===========================</div><div><div>$ tracejob -q -n 4 312345</div><div><br></div><div>Job: 312345.master.cvos.cluster</div><div><br></div><div>01/16/2010 17:01:45  S    enqueuing into route, state 1 hop 1</div>
<div>01/16/2010 17:01:45  S    dequeuing from route, state QUEUED</div><div>01/16/2010 17:01:45  S    enqueuing into mpp_small, state 1 hop 1</div><div>01/16/2010 17:01:45  S    Job Queued at request of girichid@matrix2.cvos.cluster, owner = girichid@matrix2.cvos.cluster, job name</div>
<div>                          = PL15-s-1, queue = mpp_small</div><div>01/16/2010 17:01:45  A    queue=route</div><div>01/16/2010 17:01:45  A    queue=mpp_small</div><div>01/16/2010 22:00:41  S    Job Modified at request of root@master.cvos.cluster</div>
<div>01/16/2010 22:00:41  S    Job Run at request of root@master.cvos.cluster</div><div>01/16/2010 22:00:41  S    Job Modified at request of root@master.cvos.cluster</div><div>01/16/2010 22:00:41  A    user=girichid group=ajr account=cmp09-849 jobname=PL15-s-1 queue=mpp_small ctime=1263657705</div>
<div>                          qtime=1263657705 etime=1263657705 start=1263675641 owner=girichid@matrix2.cvos.cluster</div><div>                          exec_host=neo075/7+neo075/6+neo075/5+neo075/4+neo075/3+neo075/2+neo075/1+neo075/0+neo152/7+neo152/6+neo152/5+neo152/4+neo152/3+neo152/2+neo152/1+neo152/0+neo155/7+neo155/6+neo155/5+neo155/4+neo155/3+neo155/2+neo155/1+neo155/0+neo066/7+neo066/6+neo066/5+neo066/4+neo066/3+neo066/2+neo066/1+neo066/0+neo125/7+neo125/6+neo125/5+neo125/4+neo125/3+neo125/2+neo125/1+neo125/0+neo127/7+neo127/6+neo127/5+neo127/4+neo127/3+neo127/2+neo127/1+neo127/0+neo180/7+neo180/6+neo180/5+neo180/4+neo180/3+neo180/2+neo180/1+neo180/0+neo158/7+neo158/6+neo158/5+neo158/4+neo158/3+neo158/2+neo158/1+neo158/0</div>
<div>                          Resource_List.neednodes=neo075:ppn=8+neo152:ppn=8+neo155:ppn=8+neo066:ppn=8+neo125:ppn=8+neo127:ppn=8+neo180:ppn=8+neo158:ppn=8</div><div>                          Resource_List.nodect=8 Resource_List.nodes=8:ppn=8 Resource_List.walltime=24:00:00 </div>
<div>01/17/2010 09:55:06  S    Unauthorized Request, request type: 6, Object: Job, Name: 312345.master.cvos.cluster, request from:</div><div>                          montefer@matrix2.cvos.cluster</div><div>01/17/2010 22:10:42  S    Job deleted at request of root@master.cvos.cluster</div>
<div>01/17/2010 22:10:42  S    Job sent signal SIGTERM on delete</div><div>01/17/2010 22:10:42  S    purging job without checking MOM</div><div>01/17/2010 22:10:42  S    dequeuing from mpp_small, state RUNNING</div><div>01/17/2010 22:10:42  A    requestor=root@master.cvos.cluster</div>
<div><br></div><div><br></div><div>====================== MOM (mother) ===========================</div><div>$ tracejob -q -n 4 312345</div><div><br></div><div>Job: 312345.master.cvos.cluster</div><div><br></div><div>01/16/2010 22:00:41  M    job 312345.master.cvos.cluster reported successful start on 8 node(s)</div>
<div>01/16/2010 22:00:41  M    modifying job</div><div>01/16/2010 22:00:41  M    Job Modified at request of PBS_Server@master.cvos.cluster</div><div>01/16/2010 22:00:41  M    all sisters have reported in, launching job locally</div>
<div>01/16/2010 22:00:41  M    phase 2 of job launch successfully completed</div><div>01/16/2010 22:00:41  M    job successfully started</div><div>01/16/2010 22:00:42  M    start_process: task started, tid 2, sid 9640, cmd orted</div>
<div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.152:15003">10.141.0.152:15003</a></div><div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.155:15003">10.141.0.155:15003</a></div>
<div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.125:15003">10.141.0.125:15003</a></div><div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.127:15003">10.141.0.127:15003</a></div>
<div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.66:15003">10.141.0.66:15003</a></div><div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.180:15003">10.141.0.180:15003</a></div>
<div>01/17/2010 00:00:43  M    received request &#39;ALL_OKAY&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.158:15003">10.141.0.158:15003</a></div><div>01/18/2010 09:44:26  M    no active process found</div>
<div>01/18/2010 09:44:26  M    no active process found</div><div>01/18/2010 09:44:26  M    job was terminated</div><div>01/18/2010 09:44:26  M    master task has exited - sent kill job request to 7 sisters</div><div>01/18/2010 09:44:26  M    task is dead</div>
<div>01/18/2010 09:44:26  M    task is dead</div><div>01/18/2010 09:44:26  M    job is in non-exiting substate RUNNING, no obit sent at this time</div><div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.152:15003">10.141.0.152:15003</a></div>
<div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.155:15003">10.141.0.155:15003</a></div><div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.66:15003">10.141.0.66:15003</a></div>
<div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.125:15003">10.141.0.125:15003</a></div><div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.127:15003">10.141.0.127:15003</a></div>
<div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.180:15003">10.141.0.180:15003</a></div><div>01/18/2010 09:44:26  M    received request &#39;ERROR&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.158:15003">10.141.0.158:15003</a></div>
<div>01/18/2010 09:44:26  M    sending preobit jobstat</div><div>01/18/2010 09:44:26  M    deleting job</div><div>01/18/2010 09:44:26  M    deleting job 312345.master.cvos.cluster in state PREOBIT</div><div><br></div><div>
<br></div><div>====================== MOM (sisters) ===========================</div><div><div>$ tracejob -q -n 4 312345</div><div><br></div><div>Job: 312345.master.cvos.cluster</div><div><br></div><div>01/16/2010 22:00:41  M    received request &#39;JOIN_JOB&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.75:1023">10.141.0.75:1023</a></div>
<div>01/16/2010 22:00:41  M    im_request: JOIN_JOB 312345.master.cvos.cluster node 2</div><div>01/16/2010 22:00:41  M    JOIN JOB as node 2</div><div>01/16/2010 22:00:42  M    received request &#39;SPAWN_TASK&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.75:1023">10.141.0.75:1023</a></div>
<div>01/16/2010 22:00:42  M    INFO:     received request &#39;SPAWN_TASK&#39; from <a href="http://10.141.0.75:1023">10.141.0.75:1023</a> for job &#39;312345.master.cvos.cluster&#39; (spawning task on node &#39;0&#39; with taskid=4, globid=&#39;none&#39;</div>
<div>01/16/2010 22:00:42  M    start_process: task started, tid 4, sid 16531, cmd orted</div><div>01/17/2010 00:00:43  M    received request &#39;POLL_JOB&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.75:1023">10.141.0.75:1023</a></div>
<div>01/17/2010 22:11:03  M    deleting job</div><div>01/17/2010 22:11:03  M    deleting job 312345.master.cvos.cluster in state RUNNING</div><div>01/18/2010 09:44:26  M    received request &#39;KILL_JOB&#39; for job 312345.master.cvos.cluster from <a href="http://10.141.0.75:1023">10.141.0.75:1023</a></div>
<div>01/18/2010 09:44:26  M    ERROR:    received request &#39;KILL_JOB&#39; from <a href="http://10.141.0.75:1023">10.141.0.75:1023</a> for job &#39;312345.master.cvos.cluster&#39; (job does not exist locally)</div><div>
<br></div><div><br></div><div>Can anybody help us to resolve this issue, please?</div><div><br></div><div>Regards,</div><div>Ale</div></div></div><div><br>-- <br>All work and no play makes Jack a dull boy.<br>    All work and no play makes Jack a dull<br>
  boy. All work and no play makes Jack...<br>
</div>