HI Brady,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
I tested with torque 2.2.1 .Still the node file does not get created.<br><br><div><span class="gmail_quote">On 12/6/07, <b class="gmail_sendername">Brady Kimball</b> &lt;<a href="mailto:bkimball@clusterresources.com">bkimball@clusterresources.com
</a>&gt; wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Rishi,<br><br>Try using the new configure option (as of TORQUE 2.2.1)<br>
&quot;--enable-force-nodefile&quot;.&nbsp;&nbsp;This should remove the check for neednodes<br>when writing the node file.&nbsp;&nbsp;Let me know if this doesn&#39;t work.<br><br>rishi pathak wrote:<br>&gt; Our configuration is as follows:<br>
&gt; torque version: 2.1.6<br>&gt; Moab server version 5.1.0p4<br>&gt; The problem we are facing is that when a job specifies a stagein<br>&gt; requirement, PBS_NODEFILE(allocated nodes) environment variable is not<br>&gt; available to the 
job.Below is the moab log for the job:<br>&gt; 12/06 11:45:51 WARNING:&nbsp;&nbsp;cannot set job &#39;<a href="http://7142.head.compute.in">7142.head.compute.in</a><br>&gt; &lt;<a href="http://7142.head.compute.in">http://7142.head.compute.in
</a>&gt;&#39; attr &#39;Resource_List:neednodes&#39; to &#39;&#39;<br>&gt; (rc: 15001 &#39;Unknown Job Id&#39;)<br>&gt; 12/06 11:45:51 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job &#39;7142&#39; successfully started<br>&gt; 12/06 11:45:51 INFO:&nbsp;&nbsp;&nbsp;&nbsp; starting job &#39;7142&#39;
<br>&gt; 12/06 11:45:51 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 1 jobs started on iteration 1<br>&gt;<br>&gt; corresponding pbs_mom log is :<br>&gt; 12/06/2007 11:38:54;0080;&nbsp;&nbsp; pbs_mom;Req;req_reject;Reject reply<br>&gt; code=15001(Unknown Job Id REJHOST=
<a href="http://amd16.compute.in">amd16.compute.in</a><br>&gt; &lt;<a href="http://amd16.compute.in">http://amd16.compute.in</a>&gt; MSG=modify job failed, unknown job<br>&gt; <a href="http://7142.amd01.head.compute.in">7142.amd01.head.compute.in
</a> &lt;<a href="http://7142.amd01.head.compute.in">http://7142.amd01.head.compute.in</a>&gt;),<br>&gt; aux=0, type=ModifyJob, from <a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a><br>&gt; &lt;mailto:
<a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a>&gt;<br>&gt; 12/06/2007 11:38:54;0100;&nbsp;&nbsp; pbs_mom;Req;;Type QueueJob request<br>&gt; received from <a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in
</a><br>&gt; &lt;mailto:<a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a>&gt;, sock=11<br>&gt; 12/06/2007 11:38:54;0100;&nbsp;&nbsp; pbs_mom;Req;;Type JobScript request<br>&gt; received from <a href="mailto:PBS_Server@amd01.npsf.cdac.ernet.in">
PBS_Server@amd01.npsf.cdac.ernet.in</a><br>&gt; &lt;mailto:<a href="mailto:PBS_Server@amd01.npsf.cdac.ernet.in">PBS_Server@amd01.npsf.cdac.ernet.in</a>&gt;, sock=11<br>&gt; 12/06/2007 11:38:54;0100;&nbsp;&nbsp; pbs_mom;Req;;Type ReadyToCommit request
<br>&gt; received from <a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a><br>&gt; &lt;mailto:<a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a>&gt;, sock=11<br>&gt; 12/06/2007 11:38:54;0100;&nbsp;&nbsp; pbs_mom;Req;;Type Commit request received
<br>&gt; from <a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a> &lt;mailto:<a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a>&gt;,<br>&gt; sock=11<br>&gt; 12/06/2007 11:38:54;0001;&nbsp;&nbsp; pbs_mom;Job;TMomFinalizeJob3;job
<br>&gt; <a href="http://7142.head.compurte.in">7142.head.compurte.in</a> &lt;<a href="http://7142.head.compurte.in">http://7142.head.compurte.in</a>&gt; started, pid = 2687<br>&gt; 12/06/2007 11:38:54;0100;&nbsp;&nbsp; pbs_mom;Req;;Type StatusJob request
<br>&gt; received from <a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a><br>&gt; &lt;mailto:<a href="mailto:PBS_Server@head.compute.in">PBS_Server@head.compute.in</a>&gt;, sock=10<br>&gt; 12/06/2007 11:38:54;0080;
<br>&gt; pbs_mom;Job;7142.head.compute.in;scan_for_terminated: job<br>&gt; <a href="http://7142.head.compute.in">7142.head.compute.in</a> &lt;<a href="http://7142.head.compute.in">http://7142.head.compute.in</a>&gt; task 1 terminated,
<br>&gt; sid 2687<br>&gt; 12/06/2007 11:38:54;0008;&nbsp;&nbsp; pbs_mom;Job;7142.head.compute.in;job was<br>&gt; terminated<br>&gt;<br>&gt; I found some reference on this from torque mailing list, Below is the<br>&gt; actual mail content:
<br>&gt; ---------------------------------------BEGIN<br>&gt; MAIL--------------------------------------------------------------------<br>&gt; *Garrick Staples* garrick at <a href="http://clusterresources.com">clusterresources.com
</a><br>&gt; &lt;mailto:<a href="mailto:torqueusers%40supercluster.org?Subject=%5Btorqueusers%5D%20reply%20code%3D15001...&amp;In-Reply-To=1160587021.6100.9.camel%40skutt.ydc.se">torqueusers%40supercluster.org?Subject=%5Btorqueusers%5D%20reply%20code%3D15001...&amp;In-Reply-To=1160587021.6100.9.camel%40skutt.ydc.se
</a>&gt;<br>&gt; On Wed, Oct 11, 2006 at 07:17:01PM +0200, ?ke Sandgren alleged:<br>&gt; &gt;/ On Wed, 2006-10-11 at 10:55 -0600, Garrick Staples wrote:<br>&gt; /&gt;/ &gt; On Wed, Oct 11, 2006 at 08:41:20AM +0200, ?ke Sandgren alleged:
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; On Tue, 2006-10-10 at 11:58 -0600, Garrick Staples wrote:<br>&gt; /&gt;/ &gt; &gt; &gt; On Tue, Oct 10, 2006 at 01:33:32PM +0200, ?ke Sandgren alleged:<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; Hi!
<br>&gt; /<br>&gt; &gt;/ &gt; &gt; &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; I think this have been adressed before but i can&#39;t find any info.<br>&gt; /&gt;/ &gt; &gt; &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; We are getting loads of
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; pbs_mom;Req;req_reject;Reject reply code=15001(Unknown Job Id<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; REJHOST=<a href="http://i092.hpc2n.umu.se">i092.hpc2n.umu.se</a> &lt;<a href="http://i092.hpc2n.umu.se">
http://i092.hpc2n.umu.se</a>&gt; MSG=modify job failed, unknown job<br>&gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; <a href="http://392438.ingrid-h.hpc2n.umu.se">392438.ingrid-h.hpc2n.umu.se</a> &lt;<a href="http://392438.ingrid-h.hpc2n.umu.se">
http://392438.ingrid-h.hpc2n.umu.se</a>&gt;), aux=0, type=ModifyJob, from<br>&gt; /&gt;/ &gt; &gt; &gt; &gt;<br>&gt; PBS_Server at <a href="http://ingrid-i.hpc2n.umu.se">ingrid-i.hpc2n.umu.se</a> &lt;<a href="http://www.supercluster.org/mailman/listinfo/torqueusers">
http://www.supercluster.org/mailman/listinfo/torqueusers</a>&gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; I think they are related to stage-in/out but exactly what should we be<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; looking for.
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; &gt; &gt; torque version ranging from 2.0.0p4 to 2.1.2.<br>&gt; /&gt;/ &gt; &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; &gt; This happens with every job, right?&nbsp;&nbsp;And you are using maui/moab, right?
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; &gt; If so, that is maui/moab reseting the job&#39;s neednodes resource after<br>&gt; /&gt;/ &gt; &gt; &gt; starting the job.&nbsp;&nbsp;This is a work-around for a mythical bug in job
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; &gt; starts in OpenPBS that noone has ever been able to demonstrate to me.<br>&gt; /&gt;/ &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; It doesn&#39;t happen on every job, only those that do explicit stagein/out.
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; The attrlist is &quot;resource&quot; and this is what happens...<br>&gt; /&gt;/ &gt; &gt;<br>&gt; /&gt;/ &gt; &gt; And yes this is with maui.<br>&gt; /&gt;/ &gt; &gt; Jobs without the initial CopyFiles request never gets any Modify
<br>&gt;<br>&gt; /&gt;/ &gt; &gt; rejects.<br>&gt; /&gt;/ &gt;<br>&gt; /&gt;/ &gt; IIRC, it is actually a race condition.&nbsp;&nbsp;stagein and longer prologues<br>&gt; /&gt;/ &gt; will cause the error message.&nbsp;&nbsp;It is mostly harmless, but there are some
<br>&gt;<br>&gt; /&gt;/ &gt; rare bad things.&nbsp;&nbsp;I have a patch for maui if you want (moab has<br>&gt; /&gt;/ &gt; tuneable, something like NOAUTONEEDNODE).<br>&gt; /&gt;/<br>&gt; /&gt;/ Yes definitely something i want.<br>
&gt; /&gt;<br>&gt; /<br>&gt; /&gt;/ But isn&#39;t this something that should really be done in torque?<br>&gt; /&gt;/ Shouldn&#39;t it get a jobid to the mom before starting stagein?<br>&gt; /<br>&gt; You&#39;d think so, but no.&nbsp;&nbsp;stagein happens before the job is moved to the
<br>&gt;<br>&gt; node.&nbsp;&nbsp;I think the idea is to allow for &quot;pre-stagein&quot;.<br>&gt; ---------------------END MAIL-------------------------------------------------<br>&gt;<br>&gt;
I just added &#39;NOAUTONEEDNODE&#39; to moab.cfg and job starts but still
errors are same and PBS_NODEFILE env variable is still absent.<br>&gt;<br>&gt;<br>&gt;<br>&gt; It seems like this is a known bug, but I was not able to find much<br>&gt; reference(and problem solution) on this.Also I couldnt find any
<br>&gt; reference in moab documentation for &#39;NOAUTONEEDNODES&#39; parameter<br>&gt; specified by Garrick Staples.<br>&gt;<br>&gt; Is this bug fixed or is there any workaround for said problem.<br>&gt;<br>&gt; --<br>&gt; Regards--
<br>&gt; Rishi Pathak<br>&gt; ------------------------------------------------------------------------<br>&gt;<br>&gt; _______________________________________________<br>&gt; moabusers mailing list<br>&gt; <a href="mailto:moabusers@supercluster.org">
moabusers@supercluster.org</a><br>&gt; <a href="http://www.supercluster.org/mailman/listinfo/moabusers">http://www.supercluster.org/mailman/listinfo/moabusers</a><br>&gt;<br><br><br></blockquote></div><br><br clear="all">
<br>-- <br>Regards--<br>Rishi Pathak<br>National PARAM Supercomputing Facility<br>Center for Development of Advanced Computing(C-DAC)<br>Pune University Campus,Ganesh Khind Road<br>Pune-Maharastra