<br><br><div class="gmail_quote">On Tue, Jun 10, 2008 at 2:21 PM, Joshua Bernstein &lt;<a href="mailto:jbernstein@penguincomputing.com">jbernstein@penguincomputing.com</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
Joshua Bernstein wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
Chris Samuel wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
----- &quot;Joshua Bernstein&quot; &lt;<a href="mailto:jbernstein@penguincomputing.com" target="_blank">jbernstein@penguincomputing.com</a>&gt; wrote:<br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

But I&#39;ve noticed in 2.3 that we seem to be hitting the<br>
same problem described by the OP. &nbsp;:-( <br>
</blockquote>
Interesting. Are you running TORQUE in a diskless configuration like<br>
I&#39;m doing?<br>
</blockquote>
<br>
Nope, ours have 4 x 300GB drives and keep state.<br>
<br>
Does that help or hinder ?<br>
</blockquote>
<br>
Doesn&#39;t help.<br>
<br>
I still think there is a problem with some area of the communication between pbs_mom and pbs_server.<br>
<br>
If pbs_mom responds to pbs_server with a message saying that it doesn&#39;t know anything about the job, shouldn&#39;t pbs_server just consider the job dead, and either re-queue it or just notify the user?<br>
</blockquote>
<br>
I&#39;m _STILL_ having problems with this. I&#39;ve tried running version 2.3.0, and had the same problem. pbs_mom seems to try to respond to pbs_server&#39;s request, but nothing changes. pbs_mom reports:<br>
<br>
pbs_mom;Req;;Type StatusJob request received from PBS_Server@master, sock=10<br>
...<br>
pbs_mom;Req;req_reject;Reject reply code=15001(Unknown Job Id), aux=0, type=StatusJob, from PBS_Server@master<br>
<br>
The interesting thing again, is that I&#39;m running TORQUE&#39;s pbs_mom in a diskless configuration, so when a node reboots /var/spool/torque/mom_priv/jobs, is empty and no longer holds job information. Though if I NFS mount that directory to make it persistent, &nbsp;things seem to work.<br>

<br>
This all said, unless I&#39;m not understanding something, I&#39;m convinced that there is a bug here. When pbs_mom sends a 15001 error back to pbs_server, pbs_server should assume the job is dead and either requeue it, or simply declare the job dead.</blockquote>
</div><br>I duplicated your diskless scenario by starting a job,&nbsp; shutting down pbs_mom on that node, deleting the job files from the mom_priv/jobs directory, then restarting pbs_mom.&nbsp; pbs_mom replied with the unknown job id error and pbs_server basically ignored the error and kept the job state as R<br>
<br>So I think you are right,&nbsp; this is a bug.&nbsp;&nbsp; Perhaps if a job is &quot;rerunnable&quot; then we requeue, otherwise say it is complete?&nbsp; I may take a quick crack at just removing the job in this case, and then go from there.<br>
<br>