<span style="font-family: verdana;">All,</span><br style="font-family: verdana;"><br style="font-family: verdana;"><span style="font-family: verdana;">Thanks for ALL your input.&nbsp; I see I have a lot to learn about the hows and whys of Torque, and job submissions.&nbsp; I will look at using mpiexec - thanks for the link.&nbsp; I have been using mpirun because that is what I was introduced to first.&nbsp;&nbsp;&nbsp; 
<br><br>dave<br style="font-family: verdana;"></span><br><div><span class="gmail_quote">On 12/7/06, <b class="gmail_sendername">Jerry Smith</b> &lt;<a href="mailto:jdsmit@sandia.gov">jdsmit@sandia.gov</a>&gt; wrote:</span>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">



<div>
<font face="Verdana, Helvetica, Arial"><span style="font-size: 14px;">Dave,<br>
<br>
Try in you pbs_script:<br>
<br>
-l nodes=n10:ppn=4+n11:ppn=4+n12:ppn=4+n13:ppn=4<br>
<br>
Make sure your $PBS_HOME/server_priv/nodes looks like<br>
<br>
n10 np=4<br>
n11 np=4<br>
..<br>
..<br>
<br>
<br>
Just a follow up. &nbsp;Are you wanting to get 4 nodes with 4 processors, and use only 1 processor per node? &nbsp;Your original mpirun line will only ask for 4 processors in which to run ( of which n10 has ) <br>
<br>
If you want to use all processors on all 4 nodes you would want to use –np 16.<br>
<br>
-nolocal assumes you do not want to run processes on the controlling pbs_mom ( n10 in this scenario ) therefore you are really only getting 12/16 processors. &nbsp;<br>
<br>
My other suggestion is to build Pete Wyckoff's mpiexec in place of mpirun, as there are many advantages ( usage, differing flags, is built tightly into the Torque job spawn &nbsp;etc. ) &nbsp;<br>
<a href="http://www.osc.edu/%7Epw/mpiexec/index.php" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">http://www.osc.edu/~pw/mpiexec/index.php</a><br>
<br>
<br>
<br>
Jerry Smith<br>
-----------------------------------<br>
Sandia national labs<br>
Infrastructure Computing Systems<br>
<br>
<br>
<hr align="center" size="3" width="95%"><b>From: </b>dave first &lt;<a href="mailto:linux4dave@gmail.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">linux4dave@gmail.com</a>&gt;<br>
<b>Date: </b>Wed, 6 Dec 2006 09:32:47 -0800<br>
<b>To: </b>&lt;<a href="mailto:torqueusers@supercluster.org" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">torqueusers@supercluster.org</a>&gt;<br>
<b>Subject: </b>[torqueusers] Re: Newbie torque script questions<span class="q"><br>
<br>
New datapoint - I ran the job with a &nbsp;2 minute sleep, and found the job running only on n04, as qstat -f said it would be.<br>
<br>
Why wouldn't qsub honor my local node list?<br>
<br>
dave<br>
<br></span><span class="q">
On 12/6/06, <b>dave first</b> &lt; <a href="mailto:linux4dave@gmail.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">linux4dave@gmail.com</a> <a href="mailto:linux4dave@gmail.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;mailto:linux4dave@gmail.com&gt;</a> &gt; wrote:<br>
</span></span></font><blockquote><font face="Verdana, Helvetica, Arial"><span style="font-size: 14px;"><span class="q">I am such a newbie that I squeek. &nbsp;I hope this is the correct forum in which to ask this question. <br>

<br>
I want to specify a nodelist other than that which would be $PBS_NODEFILE. &nbsp;I want to specify n10, n11, n12 and n13, each with 4 processors. &nbsp;The node list looks something like this:<br>
<br>
n10:4<br>
n11:4<br>
n12:4<br>
n13:4<br>
<br>
And it is called local_nodelist in the working directory. <br>
<br>
The script sets PBS_NODEFILE=`pwd`/local_nodelist<br>
<br>
qstat -f while running the script elicits what seems to be an erroneous nodelist <br>
<br>
Job Id: 76.excalibur<br>
&nbsp;&nbsp;&nbsp;&nbsp;Job_Name = pbs_mpich.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Job_Owner = <a href="mailto:joeb@excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">joeb@excalibur.example.com</a><br>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.cput = 00:00:00<br>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.mem = 4296kb<br>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.vmem = 175988kb<br>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.walltime = 00:00:12<br>
&nbsp;&nbsp;&nbsp;&nbsp;job_state = R<br>
&nbsp;&nbsp;&nbsp;&nbsp;queue = default <br></span>
&nbsp;&nbsp;&nbsp;&nbsp;server = <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">excalibur.example.com</a> <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://excalibur.example.com&gt;</a> <span class="q"><br>
&nbsp;&nbsp;&nbsp;&nbsp;Checkpoint = u<br>
&nbsp;&nbsp;&nbsp;&nbsp;ctime = Wed Dec &nbsp;6 08:54:16 2006<br></span>
&nbsp;&nbsp;&nbsp;&nbsp;Error_Path = <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">excalibur.example.com</a> <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://excalibur.example.com&gt;</a> :/home/joeb/pbs_mpich..e76<span class="q"><br>
&nbsp;&nbsp;&nbsp;&nbsp;exec_host = n04/0<br>
&nbsp;&nbsp;&nbsp;&nbsp;Hold_Types = n<br>
&nbsp;&nbsp;&nbsp;&nbsp;Join_Path = n<br>
&nbsp;&nbsp;&nbsp;&nbsp;Keep_Files = n<br>
&nbsp;&nbsp;&nbsp;&nbsp;Mail_Points = a<br>
&nbsp;&nbsp;&nbsp;&nbsp;mtime = Wed Dec &nbsp;6 08:54:17 2006<br></span>
&nbsp;&nbsp;&nbsp;&nbsp;Output_Path = <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">excalibur.example.com</a> <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://excalibur.example.com&gt;</a> :/home/joeb/pbs_mpich..o76<span class="q"><br>
&nbsp;&nbsp;&nbsp;&nbsp;Priority = 0<br>
&nbsp;&nbsp;&nbsp;&nbsp;qtime = Wed Dec &nbsp;6 08:54:16 2006<br>
&nbsp;&nbsp;&nbsp;&nbsp;Rerunable = True<br>
&nbsp;&nbsp;&nbsp;&nbsp;Resource_List.nodect = 1<br>
&nbsp;&nbsp;&nbsp;&nbsp;Resource_List.nodes = 1<br>
&nbsp;&nbsp;&nbsp;&nbsp;session_id = 31725<br>
&nbsp;&nbsp;&nbsp;&nbsp;Variable_List = PBS_O_HOME=/home/joeb,PBS_O_LANG=en_US.UTF-8, <br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_LOGNAME=joeb,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_PATH=/opt/torque/bin:/opt/bin:/opt/hdfview/bin:/opt/hdf/bin:/opt<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;/ncarg/bin:/opt/mpich/p4-gnu/bin:/opt/mpiexec//bin:/usr/kerberos/bin:/o<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pt/java/jdk1.5.0/bin:/usr/lib64/ccache/bin:/usr/local/bin:/bin:/usr/bin <br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;:/usr/X11R6/bin:/opt/java/jdk1.5.0/jre/bin:/opt/visit/bin:/home/joeb/bi<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;n:/opt/mpich/p4-gnu/sbin,PBS_O_MAIL=/var/spool/mail/joeb<br></span>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_SHELL=/bin/bash,PBS_O_HOST= <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">excalibur.example.com</a> <a href="http://excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://excalibur.example.com&gt;</a> ,<span class="q"><br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_WORKDIR=/home/joeb,PBS_O_QUEUE=default<br>
&nbsp;&nbsp;&nbsp;&nbsp;comment = Job started on Wed Dec 06 at 08:54<br>
&nbsp;&nbsp;&nbsp;&nbsp;etime = Wed Dec &nbsp;6 08:54:16 2006<br>
--------------------------------------------------------------------------------- <br>
<br>
However, the script output looks like this:<br>
<br></span>
Job ID: <a href="http://76.excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">76.excalibur.example.com</a> <a href="http://76.excalibur.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://76.excalibur.example.com&gt;</a> <span class="q"><br>
Working directory is /home/joeb<br></span>
Running on host <a href="http://n04.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">n04.example.com</a> <a href="http://n04.example.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://n04.example.com&gt;</a> <span class="q"><br>
Time is Wed Dec 6 08:54:17 PST 2006<br>
Directory is /home/joeb<br>
The node file is /net/fs/home/joeb/local_nodefile <br>
This job runs on the following processors:<br></span>
<a href="http://n09.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">n09.example.com:4</a> <a href="http://n09.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://n09.example.com:4&gt;</a> &nbsp;<a href="http://n10.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">n10.example.com:4</a> <a href="http://n10.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://n10.example.com:4&gt;</a> &nbsp;<a href="http://n11.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">n11.example.com:4</a> <a href="http://n11.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://n11.example.com:4&gt;</a> &nbsp;<a href="http://n12.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">n12.example.com:4</a> <a href="http://n12.example.com:4" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
&lt;http://n12.example.com:4&gt;</a> <span class="q"><br>
This job has allocated 4 nodes/processors.<br>
<br>
/usr/local/bin/mpich/x86_64/p4/gnu/bin/mpirun -nolocal -np 4 -machinefile /net/fs/home/joeb/local_nodefile /usr/local/bin/mpich/p <br>
4-gnu/examples/cpi<br>
<br>
pi is approximately 3.1416009869231249, Error is 0.0000083333333318<br>
wall clock time = 0.003906<br>
--------------------------------------------------------------------------------- <br>
<br>
Can anyone explain why the output of qstat -f and the script echo statements differ, and how can I determine which is correct? &nbsp;(Short of sleeping for a while while I look for all the processes?) <br>
<br>
Thanks,<br>
dave<br>
<br>
</span></span></font></blockquote><font face="Verdana, Helvetica, Arial"><span style="font-size: 14px;"><br>
<br>
<hr align="center" size="3" width="95%"></span></font><span style="font-size: 14px;"><font face="Monaco, Courier New">_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</font></span>
</div>



</blockquote></div><br>