<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;">I have 2 small clusters (torque/moab)&nbsp; containing 2 and 8 nodes (with procs set to 8 for each node np=8) respectively. These 2 clusters are completely independent. <br><br>Once a while jobs are not getting dequeued from the torque server even though these jobs completed successfully and the nodes sent OBIT <br><br>On 2 node cluster when jobs fail to dequeue I consistently see this message in server log (also in tracejob output) <br><br>07/19/2008 17:39:54&nbsp; S&nbsp;&nbsp;&nbsp; Reject reply code=15001(Unknown Job Id), aux=0,<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; type=JobObituary, from<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
 pbs_mom@ac4-int2sav-004.adx.pool.ac4.yahoo.com<br><br><br>On 8 node cluster we see this<br><br>07/19/2008 17:42:55&nbsp; S&nbsp;&nbsp;&nbsp; Reject reply code=15052(unknown job id after clean<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; init), aux=0, type=JobObituary, from<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pbs_mom@ac4-int2ctpmynacluster-012.adx.pool.ac4.yahoo.com<br><br>we are running torque version 2.3.0-snap.200805071513 in a virtual environment<br><br>any suggestions on&nbsp; what may cause this?<br><br>Krishna<br>&nbsp;<br></td></tr></table><br>