<HTML>
<HEAD>
<TITLE>Re: [torqueusers] Re: Newbie torque script questions</TITLE>
</HEAD>
<BODY>
<FONT FACE="Verdana, Helvetica, Arial"><SPAN STYLE='font-size:14.0px'>Dave,<BR>
<BR>
Try in you pbs_script:<BR>
<BR>
-l nodes=n10:ppn=4+n11:ppn=4+n12:ppn=4+n13:ppn=4<BR>
<BR>
Make sure your $PBS_HOME/server_priv/nodes looks like<BR>
<BR>
n10 np=4<BR>
n11 np=4<BR>
..<BR>
..<BR>
<BR>
<BR>
Just a follow up. &nbsp;Are you wanting to get 4 nodes with 4 processors, and use only 1 processor per node? &nbsp;Your original mpirun line will only ask for 4 processors in which to run ( of which n10 has ) <BR>
<BR>
If you want to use all processors on all 4 nodes you would want to use &#8211;np 16.<BR>
<BR>
-nolocal assumes you do not want to run processes on the controlling pbs_mom ( n10 in this scenario ) therefore you are really only getting 12/16 processors. &nbsp;<BR>
<BR>
My other suggestion is to build Pete Wyckoff&#8217;s mpiexec in place of mpirun, as there are many advantages ( usage, differing flags, is built tightly into the Torque job spawn &nbsp;etc. ) &nbsp;<BR>
<a href="http://www.osc.edu/~pw/mpiexec/index.php">http://www.osc.edu/~pw/mpiexec/index.php</a><BR>
<BR>
<BR>
<BR>
Jerry Smith<BR>
-----------------------------------<BR>
Sandia national labs<BR>
Infrastructure Computing Systems<BR>
<BR>
<BR>
<HR ALIGN=CENTER SIZE="3" WIDTH="95%"><B>From: </B>dave first &lt;linux4dave@gmail.com&gt;<BR>
<B>Date: </B>Wed, 6 Dec 2006 09:32:47 -0800<BR>
<B>To: </B>&lt;torqueusers@supercluster.org&gt;<BR>
<B>Subject: </B>[torqueusers] Re: Newbie torque script questions<BR>
<BR>
New datapoint - I ran the job with a &nbsp;2 minute sleep, and found the job running only on n04, as qstat -f said it would be.<BR>
<BR>
Why wouldn't qsub honor my local node list?<BR>
<BR>
dave<BR>
<BR>
On 12/6/06, <B>dave first</B> &lt; linux4dave@gmail.com <a href="mailto:linux4dave@gmail.com">&lt;mailto:linux4dave@gmail.com&gt;</a> &gt; wrote:<BR>
</SPAN></FONT><BLOCKQUOTE><FONT FACE="Verdana, Helvetica, Arial"><SPAN STYLE='font-size:14.0px'>I am such a newbie that I squeek. &nbsp;I hope this is the correct forum in which to ask this question. <BR>
<BR>
I want to specify a nodelist other than that which would be $PBS_NODEFILE. &nbsp;I want to specify n10, n11, n12 and n13, each with 4 processors. &nbsp;The node list looks something like this:<BR>
<BR>
n10:4<BR>
n11:4<BR>
n12:4<BR>
n13:4<BR>
<BR>
And it is called local_nodelist in the working directory. <BR>
<BR>
The script sets PBS_NODEFILE=`pwd`/local_nodelist<BR>
<BR>
qstat -f while running the script elicits what seems to be an erroneous nodelist <BR>
<BR>
Job Id: 76.excalibur<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Job_Name = pbs_mpich.<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Job_Owner = joeb@excalibur.example.com<BR>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.cput = 00:00:00<BR>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.mem = 4296kb<BR>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.vmem = 175988kb<BR>
&nbsp;&nbsp;&nbsp;&nbsp;resources_used.walltime = 00:00:12<BR>
&nbsp;&nbsp;&nbsp;&nbsp;job_state = R<BR>
&nbsp;&nbsp;&nbsp;&nbsp;queue = default <BR>
&nbsp;&nbsp;&nbsp;&nbsp;server = excalibur.example.com <a href="http://excalibur.example.com">&lt;http://excalibur.example.com&gt;</a> <BR>
&nbsp;&nbsp;&nbsp;&nbsp;Checkpoint = u<BR>
&nbsp;&nbsp;&nbsp;&nbsp;ctime = Wed Dec &nbsp;6 08:54:16 2006<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Error_Path = excalibur.example.com <a href="http://excalibur.example.com">&lt;http://excalibur.example.com&gt;</a> :/home/joeb/pbs_mpich..e76<BR>
&nbsp;&nbsp;&nbsp;&nbsp;exec_host = n04/0<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Hold_Types = n<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Join_Path = n<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Keep_Files = n<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Mail_Points = a<BR>
&nbsp;&nbsp;&nbsp;&nbsp;mtime = Wed Dec &nbsp;6 08:54:17 2006<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Output_Path = excalibur.example.com <a href="http://excalibur.example.com">&lt;http://excalibur.example.com&gt;</a> :/home/joeb/pbs_mpich..o76<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Priority = 0<BR>
&nbsp;&nbsp;&nbsp;&nbsp;qtime = Wed Dec &nbsp;6 08:54:16 2006<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Rerunable = True<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Resource_List.nodect = 1<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Resource_List.nodes = 1<BR>
&nbsp;&nbsp;&nbsp;&nbsp;session_id = 31725<BR>
&nbsp;&nbsp;&nbsp;&nbsp;Variable_List = PBS_O_HOME=/home/joeb,PBS_O_LANG=en_US.UTF-8, <BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_LOGNAME=joeb,<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_PATH=/opt/torque/bin:/opt/bin:/opt/hdfview/bin:/opt/hdf/bin:/opt<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;/ncarg/bin:/opt/mpich/p4-gnu/bin:/opt/mpiexec//bin:/usr/kerberos/bin:/o<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pt/java/jdk1.5.0/bin:/usr/lib64/ccache/bin:/usr/local/bin:/bin:/usr/bin <BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;:/usr/X11R6/bin:/opt/java/jdk1.5.0/jre/bin:/opt/visit/bin:/home/joeb/bi<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;n:/opt/mpich/p4-gnu/sbin,PBS_O_MAIL=/var/spool/mail/joeb<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_SHELL=/bin/bash,PBS_O_HOST= excalibur.example.com <a href="http://excalibur.example.com">&lt;http://excalibur.example.com&gt;</a> ,<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PBS_O_WORKDIR=/home/joeb,PBS_O_QUEUE=default<BR>
&nbsp;&nbsp;&nbsp;&nbsp;comment = Job started on Wed Dec 06 at 08:54<BR>
&nbsp;&nbsp;&nbsp;&nbsp;etime = Wed Dec &nbsp;6 08:54:16 2006<BR>
--------------------------------------------------------------------------------- <BR>
<BR>
However, the script output looks like this:<BR>
<BR>
Job ID: 76.excalibur.example.com <a href="http://76.excalibur.example.com">&lt;http://76.excalibur.example.com&gt;</a> <BR>
Working directory is /home/joeb<BR>
Running on host n04.example.com <a href="http://n04.example.com">&lt;http://n04.example.com&gt;</a> <BR>
Time is Wed Dec 6 08:54:17 PST 2006<BR>
Directory is /home/joeb<BR>
The node file is /net/fs/home/joeb/local_nodefile <BR>
This job runs on the following processors:<BR>
n09.example.com:4 <a href="http://n09.example.com:4">&lt;http://n09.example.com:4&gt;</a> &nbsp;n10.example.com:4 <a href="http://n10.example.com:4">&lt;http://n10.example.com:4&gt;</a> &nbsp;n11.example.com:4 <a href="http://n11.example.com:4">&lt;http://n11.example.com:4&gt;</a> &nbsp;n12.example.com:4 <a href="http://n12.example.com:4">&lt;http://n12.example.com:4&gt;</a> <BR>
This job has allocated 4 nodes/processors.<BR>
<BR>
/usr/local/bin/mpich/x86_64/p4/gnu/bin/mpirun -nolocal -np 4 -machinefile /net/fs/home/joeb/local_nodefile /usr/local/bin/mpich/p <BR>
4-gnu/examples/cpi<BR>
<BR>
pi is approximately 3.1416009869231249, Error is 0.0000083333333318<BR>
wall clock time = 0.003906<BR>
--------------------------------------------------------------------------------- <BR>
<BR>
Can anyone explain why the output of qstat -f and the script echo statements differ, and how can I determine which is correct? &nbsp;(Short of sleeping for a while while I look for all the processes?) <BR>
<BR>
Thanks,<BR>
dave<BR>
<BR>
</SPAN></FONT></BLOCKQUOTE><FONT FACE="Verdana, Helvetica, Arial"><SPAN STYLE='font-size:14.0px'><BR>
<BR>
<HR ALIGN=CENTER SIZE="3" WIDTH="95%"></SPAN></FONT><SPAN STYLE='font-size:14.0px'><FONT FACE="Monaco, Courier New">_______________________________________________<BR>
torqueusers mailing list<BR>
torqueusers@supercluster.org<BR>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a><BR>
</FONT></SPAN>
</BODY>
</HTML>