James,<br><br>Thanks for you reply.<br>In our cluster, the mpd has been started as a dameon when the cluster setup, as follow:<br>00:00:01 python2.4 /home/software/mpich2-1.1.1p1-intel/bin/mpd --daemon --listenport=33013 --ncpus=8<br>
likewise, in the compute nodes, following command is executed:<br>/home/software/mpich2-1.1.1p1-intel/bin/mpd --daemon --host=node1 --port=33013 --ncpus=8<br>and i executed the command:mpdtrace -l, which shows the communicati<br>
on is well during these nodes.<br><br>After above setting, whether it is not necessary to use mpdboot and mpdexit.<br>I also try to add the above command to my job script as the url in your email, but problems still happen.<br>
<br><div class="gmail_quote">2010/3/2 Coyle, James J [ITACD] <span dir="ltr">&lt;<a href="mailto:jjc@iastate.edu">jjc@iastate.edu</a>&gt;</span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">









<div link="blue" vlink="purple" lang="EN-US">

<div>

<p class="MsoNormal">ChenWeiguang,<span style="font-size: 11pt; color: rgb(31, 73, 125);"></span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Mpich is not aware of the nodes that the scheduler assigned.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">For MPICH-2 you need to use mpdbooot at the beginning of your Torque
script and mpdexit</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">at the end.  You can look at :</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"><a href="http://beige.ucs.indiana.edu/I590/node58.html" target="_blank">http://beige.ucs.indiana.edu/I590/node58.html</a></span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">for an example of how these can be used in a PBS or Torque job.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">  If Torque was built with the tm interface, then if you
install and use OpenMPI</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">you won’t need these, as the TM interface is used by
OpenMPI to know which</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">nodes are assigned.  I changed from MPICH to OpenMPI when
going from </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">MPI-1 to MPI-2 due to this issue.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> James Coyle, PhD</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> High Performance Computing Group     </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> 115 Durham
Center            </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> Iowa State Univ.           phone:
(515)-294-2099</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> Ames, Iowa
50011           web:
<a href="http://www.public.iastate.edu/%7Ejjc" target="_blank">http://www.public.iastate.edu/~jjc</a></span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<div style="border-width: 1pt medium medium; border-style: solid none none; border-color: rgb(181, 196, 223) -moz-use-text-color -moz-use-text-color; padding: 3pt 0in 0in;">

<p class="MsoNormal"><b><span style="font-size: 10pt;">From:</span></b><span style="font-size: 10pt;">
<a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>
[mailto:<a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>] <b>On Behalf Of </b>Weiguang Chen<br>
<b>Sent:</b> Tuesday, March 02, 2010 3:26 AM<br>
<b>To:</b> torqueusers maillist<br>
<b>Subject:</b> [torqueusers] Job can not be allocated correctly</span></p>

</div><div><div></div><div class="h5">

<p class="MsoNormal"> </p>

<p class="MsoNormal" style="margin-bottom: 12pt;">Hi, all<br>
<br>
In fact, I can not sure whether Torque or mpich cause this problem. I just
express my problem as follow a exapmle script:<br>
#!/bin/bash<br>
### Job name<br>
#PBS -N name<br>
#PBS -q batch<br>
### number of numbers and process per node<br>
#PBS -l nodes=2:ppn=4<br>
### Job&#39;s error output  <br>
#PBS -e error<br>
### Job&#39;s general output<br>
#PBS -o stdout<br>
<br>
cd $PBS_O_WORKDIR<br>
echo &quot;Job begin at &quot;`date`<br>
# program examples<br>
mpiexec -n 8 $PBS_O_WORKDIR/cpi<br>
echo &quot;Job stop at &quot;`date`<br>
<br>
exit 0<br>
<br>
cpi is a example progrm in mpich package. Our cluster profile is two processors
with every 4 cores, i.e. 8 cores per one node. But the message from the above
job is as follow when i submit this job:<br>
Process 0 on node5<br>
Process 1 on node5<br>
Process 2 on node5<br>
Process 3 on node5<br>
Process 5 on node5<br>
Process 6 on node5<br>
Process 4 on node5<br>
Process 7 on node5  <br>
<br>
All processes are ran on one node, but i allocated 2 nodes. I don&#39;t know what
cause it happen, and how to solve it.<br>
Thanks<br>
<br>
PS: Torque version:2.4.6, mpich:2-1.1.1p1, mpiexec:0.83<br>
--<br>
Best Wishes <br>
ChenWeiguang<br>
<br>
************************************************<br>
#               Chen, Weiguang <br>
#<br>
#    Postgraduate,  Ph. D<br>
#  75 University Road, Physics Buliding  #  218<br>
#  School of Physics &amp; Engineering<br>
#  Zhengzhou University<br>
#  Zhengzhou, Henan 450052  CHINA<br>
#<br>
#  Tel: 86-13203730117;<br>
#  <a href="mailto:E-mail%3Achenweiguang82@gmail.com" target="_blank">E-mail:chenweiguang82@gmail.com</a>;<br>
#            <a href="mailto:chenweiguang82@qq.com" target="_blank">chenweiguang82@qq.com</a><br>
#<br>
**********************************************</p>

</div></div></div>

</div>


</blockquote></div><br><br clear="all"><br>-- <br>Best Wishes<br>ChenWeiguang<br><br>************************************************<br>#               Chen, Weiguang <br>#<br>#    Postgraduate,  Ph. D<br>#  75 University Road, Physics Buliding  #  218<br>
#  School of Physics &amp; Engineering<br>#  Zhengzhou University<br>#  Zhengzhou, Henan 450052  CHINA<br>#<br>#  Tel: 86-13203730117;<br>#  <a href="mailto:E-mail%3Achenweiguang82@gmail.com">E-mail:chenweiguang82@gmail.com</a>;<br>
#            <a href="mailto:chenweiguang82@qq.com">chenweiguang82@qq.com</a><br>#<br>**********************************************<br><br>