Jim Coyle,<br><br>What you thought is right. There are 8 cpus(cores) per node on our cluster. And the problem just is that the job starts all 8 cpus on one node first even i allocate 4 cpus on one node and 4 cpus on the other node.<br>
<br>If i set ppn=8, the problem won&#39;t happen, but that is not the allocation i want<br>.<br><div class="gmail_quote">2010/3/3 Coyle, James J [ITACD] <span dir="ltr">&lt;<a href="mailto:jjc@iastate.edu">jjc@iastate.edu</a>&gt;</span><br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">








<div link="blue" vlink="purple" lang="EN-US">

<div>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Chen Weiguang,</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">  In your mpd command I see npcus=8.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Doesn’t that mean 8 cpus per node?</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Perhaps mpiexec starts all 8 on one node first</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">before starting any on other nodes.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">   I suggest that you try the script again with nodes=2:ppn=8</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">And use mpiexec –n 16</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">(or if you cannot use ppn=8. Just use mpiexec –n 16 … )</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p style="margin-left: 20.25pt;"><span style="font-size: 11pt; color: rgb(31, 73, 125);"><span>-<span style="font: 7pt &quot;Times New Roman&quot;;">         
</span></span></span><span style="font-size: 11pt; color: rgb(31, 73, 125);">Jim Coyle</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<div style="border-width: 1pt medium medium; border-style: solid none none; border-color: rgb(181, 196, 223) -moz-use-text-color -moz-use-text-color; padding: 3pt 0in 0in;">

<p class="MsoNormal"><b><span style="font-size: 10pt;">From:</span></b><span style="font-size: 10pt;"> Weiguang Chen
[mailto:<a href="mailto:chenweiguang82@gmail.com" target="_blank">chenweiguang82@gmail.com</a>] <br>
<b>Sent:</b> Tuesday, March 02, 2010 1:56 PM<br>
<b>To:</b> Coyle, James J [ITACD]; torqueusers maillist<br>
<b>Subject:</b> Re: [torqueusers] Job can not be allocated correctly</span></p>

</div><div><div></div><div class="h5">

<p class="MsoNormal"> </p>

<p class="MsoNormal" style="margin-bottom: 12pt;">James,<br>
<br>
Thanks for you reply.<br>
In our cluster, the mpd has been started as a dameon when the cluster setup, as
follow:<br>
00:00:01 python2.4 /home/software/mpich2-1.1.1p1-intel/bin/mpd --daemon
--listenport=33013 --ncpus=8<br>
likewise, in the compute nodes, following command is executed:<br>
/home/software/mpich2-1.1.1p1-intel/bin/mpd --daemon --host=node1 --port=33013
--ncpus=8<br>
and i executed the command:mpdtrace -l, which shows the communicati<br>
on is well during these nodes.<br>
<br>
After above setting, whether it is not necessary to use mpdboot and mpdexit.<br>
I also try to add the above command to my job script as the url in your email,
but problems still happen.</p>

<div>

<p class="MsoNormal">2010/3/2 Coyle, James J [ITACD] &lt;<a href="mailto:jjc@iastate.edu" target="_blank">jjc@iastate.edu</a>&gt;</p>

<div>

<div>

<p class="MsoNormal">ChenWeiguang,</p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Mpich is not aware of the nodes that the
scheduler assigned.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">For MPICH-2 you need to use mpdbooot at
the beginning of your Torque script and mpdexit</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">at the end.  You can look at :</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"><a href="http://beige.ucs.indiana.edu/I590/node58.html" target="_blank">http://beige.ucs.indiana.edu/I590/node58.html</a></span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">for an example of how these can be used
in a PBS or Torque job.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">  If Torque was built with the tm
interface, then if you install and use OpenMPI</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">you won’t need these, as the TM
interface is used by OpenMPI to know which</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">nodes are assigned.  I changed from
MPICH to OpenMPI when going from </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">MPI-1 to MPI-2 due to this issue.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> James Coyle, PhD</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> High Performance Computing
Group     </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> 115 Durham
Center            </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> Iowa State Univ.      
    phone: (515)-294-2099</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> Ames, Iowa
50011           web: <a href="http://www.public.iastate.edu/%7Ejjc" target="_blank">http://www.public.iastate.edu/~jjc</a></span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<div style="border-width: 1pt medium medium; border-style: solid none none; padding: 3pt 0in 0in; border-color: -moz-use-text-color;">

<p class="MsoNormal"><b><span style="font-size: 10pt;">From:</span></b><span style="font-size: 10pt;"> <a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>
[mailto:<a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>]
<b>On Behalf Of </b>Weiguang Chen<br>
<b>Sent:</b> Tuesday, March 02, 2010 3:26 AM<br>
<b>To:</b> torqueusers maillist<br>
<b>Subject:</b> [torqueusers] Job can not be allocated correctly</span></p>

</div>

<div>

<div>

<p class="MsoNormal"> </p>

<p class="MsoNormal" style="margin-bottom: 12pt;">Hi, all<br>
<br>
In fact, I can not sure whether Torque or mpich cause this problem. I just
express my problem as follow a exapmle script:<br>
#!/bin/bash<br>
### Job name<br>
#PBS -N name<br>
#PBS -q batch<br>
### number of numbers and process per node<br>
#PBS -l nodes=2:ppn=4<br>
### Job&#39;s error output  <br>
#PBS -e error<br>
### Job&#39;s general output<br>
#PBS -o stdout<br>
<br>
cd $PBS_O_WORKDIR<br>
echo &quot;Job begin at &quot;`date`<br>
# program examples<br>
mpiexec -n 8 $PBS_O_WORKDIR/cpi<br>
echo &quot;Job stop at &quot;`date`<br>
<br>
exit 0<br>
<br>
cpi is a example progrm in mpich package. Our cluster profile is two processors
with every 4 cores, i.e. 8 cores per one node. But the message from the above
job is as follow when i submit this job:<br>
Process 0 on node5<br>
Process 1 on node5<br>
Process 2 on node5<br>
Process 3 on node5<br>
Process 5 on node5<br>
Process 6 on node5<br>
Process 4 on node5<br>
Process 7 on node5  <br>
<br>
All processes are ran on one node, but i allocated 2 nodes. I don&#39;t know what
cause it happen, and how to solve it.<br>
Thanks<br>
<br>
PS: Torque version:2.4.6, mpich:2-1.1.1p1, mpiexec:0.83<br>
--<br>
Best Wishes <br>
ChenWeiguang<br>
<br>
************************************************<br>
#               Chen, Weiguang <br>
#<br>
#    Postgraduate,  Ph. D<br>
#  75 University Road, Physics Buliding  #  218<br>
#  School of Physics &amp; Engineering<br>
#  Zhengzhou University<br>
#  Zhengzhou, Henan 450052  CHINA<br>
#<br>
#  Tel: 86-13203730117;<br>
#  <a href="mailto:E-mail%3Achenweiguang82@gmail.com" target="_blank">E-mail:chenweiguang82@gmail.com</a>;<br>
#            <a href="mailto:chenweiguang82@qq.com" target="_blank">chenweiguang82@qq.com</a><br>
#<br>
**********************************************</p>

</div>

</div>

</div>

</div>

</div>

<p class="MsoNormal" style="margin-bottom: 12pt;"><br>
<br clear="all">
<br>
-- <br>
Best Wishes<br>
ChenWeiguang<br>
<br>
************************************************<br>
#               Chen, Weiguang <br>
#<br>
#    Postgraduate,  Ph. D<br>
#  75 University Road, Physics Buliding  #  218<br>
#  School of Physics &amp; Engineering<br>
#  Zhengzhou University<br>
#  Zhengzhou, Henan 450052  CHINA<br>
#<br>
#  Tel: 86-13203730117;<br>
#  <a href="mailto:E-mail%3Achenweiguang82@gmail.com" target="_blank">E-mail:chenweiguang82@gmail.com</a>;<br>
#            <a href="mailto:chenweiguang82@qq.com" target="_blank">chenweiguang82@qq.com</a><br>
#<br>
**********************************************</p>

</div></div></div>

</div>


</blockquote></div><br><br clear="all"><br>-- <br>Best Wishes<br>ChenWeiguang<br><br>************************************************<br>#               Chen, Weiguang <br>#<br>#    Postgraduate,  Ph. D<br>#  75 University Road, Physics Buliding  #  218<br>
#  School of Physics &amp; Engineering<br>#  Zhengzhou University<br>#  Zhengzhou, Henan 450052  CHINA<br>#<br>#  Tel: 86-13203730117;<br>#  <a href="mailto:E-mail%3Achenweiguang82@gmail.com">E-mail:chenweiguang82@gmail.com</a>;<br>
#            <a href="mailto:chenweiguang82@qq.com">chenweiguang82@qq.com</a><br>#<br>**********************************************<br><br>