<br><font size=2 face="Arial">Huh, to follow up on this, what are the rare
Bad Things that can happen here (I decided years ago to ignore the millions
of these we get)? &nbsp;</font>
<br>
<br><font size=2 face="Arial">Best,</font>
<br><font size=2 face="Arial">Nate</font>
<br>
<br>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td width=40%><font size=1 face="sans-serif"><b>&quot;Gonzalo Merino&quot;
&lt;merino@pic.es&gt;</b> </font>
<br><font size=1 face="sans-serif">Sent by: torqueusers-bounces@supercluster.org</font>
<p><font size=1 face="sans-serif">25-Oct-2007 13:05</font>
<td width=59%><font size=1 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp;
</font>
<table width=100%>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">To</font></div>
<td><font size=1 face="sans-serif">torqueusers@supercluster.org</font>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">cc</font></div>
<td>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">Subject</font></div>
<td><font size=1 face="sans-serif">Re: [torqueusers] reply code=15001...</font></table>
<br>
<table>
<tr valign=top>
<td>
<td></table>
<br></table>
<br>
<br>
<br><font size=3>Hello Garrick and others,<br>
<br>
We are running this version of maui and torque:<br>
 maui-3.2.6p19<br>
 torque-2.1.8<br>
<br>
And we see lots of these 15001 all the time. Sometimes the job starts immediately
after the error appears in the pbs_mom log, but some other times the job
never starts. It fails.<br>
<br>
It definetly smells like some race condition as you mentioned. <br>
Do you know if the patch you sent one year ago is already included in some
recent maui version?<br>
<br>
thanks a lot,<br>
Gonzalo<br>
<br>
Garrick Staples escribió: </font>
<br><tt><font size=3>On Wed, Oct 11, 2006 at 07:17:01PM +0200, ?ke Sandgren
alleged:<br>
 &nbsp;</font></tt>
<br><tt><font size=3>On Wed, 2006-10-11 at 10:55 -0600, Garrick Staples
wrote:<br>
 &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>On Wed, Oct 11, 2006 at 08:41:20AM +0200, ?ke Sandgren
alleged:<br>
 &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>On Tue, 2006-10-10 at 11:58 -0600, Garrick Staples
wrote:<br>
 &nbsp; &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>On Tue, Oct 10, 2006 at 01:33:32PM +0200, ?ke Sandgren
alleged:<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>Hi!<br>
<br>
I think this have been adressed before but i can't find any info.<br>
<br>
We are getting loads of<br>
pbs_mom;Req;req_reject;Reject reply code=15001(Unknown Job Id<br>
REJHOST=i092.hpc2n.umu.se MSG=modify job failed, unknown job<br>
392438.ingrid-h.hpc2n.umu.se), aux=0, type=ModifyJob, from<br>
</font></tt><a href="mailto:PBS_Server@ingrid-i.hpc2n.umu.se"><tt><font size=3 color=blue><u>PBS_Server@ingrid-i.hpc2n.umu.se</u></font></tt></a><tt><font size=3><br>
<br>
I think they are related to stage-in/out but exactly what should we be<br>
looking for.<br>
<br>
torque version ranging from 2.0.0p4 to 2.1.2.<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>This happens with every job, right? &nbsp;And you
are using maui/moab, right?<br>
<br>
If so, that is maui/moab reseting the job's neednodes resource after<br>
starting the job. &nbsp;This is a work-around for a mythical bug in job<br>
starts in OpenPBS that noone has ever been able to demonstrate to me.<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>It doesn't happen on every job, only those that do
explicit stagein/out.<br>
The attrlist is &quot;resource&quot; and this is what happens...<br>
<br>
And yes this is with maui.<br>
Jobs without the initial CopyFiles request never gets any Modify<br>
rejects.<br>
 &nbsp; &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>IIRC, it is actually a race condition. &nbsp;stagein
and longer prologues<br>
will cause the error message. &nbsp;It is mostly harmless, but there are
some<br>
rare bad things. &nbsp;I have a patch for maui if you want (moab has<br>
tuneable, something like NOAUTONEEDNODE).<br>
 &nbsp; &nbsp; &nbsp;</font></tt>
<br><tt><font size=3>Yes definitely something i want.<br>
<br>
But isn't this something that should really be done in torque?<br>
Shouldn't it get a jobid to the mom before starting stagein?<br>
 &nbsp; &nbsp;</font></tt>
<br><tt><font size=3><br>
You'd think so, but no. &nbsp;stagein happens before the job is moved to
the<br>
node. &nbsp;I think the idea is to allow for &quot;pre-stagein&quot;.<br>
<br>
 &nbsp;</font></tt>
<br><tt><font size=3><br>
</font></tt>
<hr><tt><font size=3><br>
Index: src/moab/MPBSI.c<br>
===================================================================<br>
RCS file: /usr/local/nfs/src/cvs_repository/maui/src/moab/MPBSI.c,v<br>
retrieving revision 1.14<br>
diff -u -r1.14 MPBSI.c<br>
--- src/moab/MPBSI.c &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp; 5 Nov 2005 02:42:08 -0000 &nbsp; &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; 1.14<br>
+++ src/moab/MPBSI.c &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp; 23 May 2006 01:50:11 -0000<br>
@@ -1792,6 +1792,7 @@<br>
 &nbsp; &nbsp; &nbsp; return(FAILURE);<br>
 &nbsp; &nbsp; &nbsp; }<br>
 <br>
+/*<br>
 &nbsp; &nbsp; if (MPBSJobModify(<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; J,<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; R,<br>
@@ -1826,6 +1827,7 @@<br>
 &nbsp; &nbsp; &nbsp; &nbsp; J-&gt;Name,<br>
 &nbsp; &nbsp; &nbsp; &nbsp; HostList);<br>
 &nbsp; &nbsp; &nbsp; }<br>
+*/<br>
 &nbsp; &nbsp; }<br>
 &nbsp; else<br>
 &nbsp; &nbsp; {<br>
@@ -1904,7 +1906,7 @@<br>
 <br>
 &nbsp; MJobGetName(J,NULL,R,tmpJobName,sizeof(tmpJobName),mjnRMName);
&nbsp; &nbsp; &nbsp; <br>
 <br>
- &nbsp;rc = pbs_runjob(R-&gt;U.PBS.ServerSD,tmpJobName,MasterHost,NULL);<br>
+ &nbsp;rc = pbs_runjob(R-&gt;U.PBS.ServerSD,tmpJobName,HostList,NULL);<br>
 <br>
 &nbsp; if (rc != 0)<br>
 &nbsp; &nbsp; {<br>
@@ -1928,6 +1930,7 @@<br>
 &nbsp; &nbsp; JobStartFailed = TRUE;<br>
 &nbsp; &nbsp; }<br>
 <br>
+/*<br>
 &nbsp; if (J-&gt;NeedNodes != NULL)<br>
 &nbsp; &nbsp; {<br>
 &nbsp; &nbsp; if (MPBSJobModify(<br>
@@ -1949,6 +1952,7 @@<br>
 &nbsp; &nbsp; &nbsp; &nbsp; J-&gt;NeedNodes);<br>
 &nbsp; &nbsp; &nbsp; }<br>
 &nbsp; &nbsp; }<br>
+*/<br>
 <br>
 &nbsp; if (JobStartFailed == TRUE)<br>
 &nbsp; &nbsp; {<br>
 &nbsp;</font></tt>
<br><tt><font size=3><br>
</font></tt>
<hr><tt><font size=3><br>
_______________________________________________<br>
torqueusers mailing list<br>
</font></tt><a href=mailto:torqueusers@supercluster.org><tt><font size=3 color=blue><u>torqueusers@supercluster.org</u></font></tt></a><tt><font size=3><br>
</font></tt><a href=http://www.supercluster.org/mailman/listinfo/torqueusers><tt><font size=3 color=blue><u>http://www.supercluster.org/mailman/listinfo/torqueusers</u></font></tt></a><tt><font size=3><br>
 &nbsp;</font></tt><tt><font size=2>_______________________________________________<br>
torqueusers mailing list<br>
torqueusers@supercluster.org<br>
http://www.supercluster.org/mailman/listinfo/torqueusers<br>
</font></tt>
<br>