<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0in;
        margin-right:0in;
        margin-bottom:0in;
        margin-left:.5in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
 /* List Definitions */
 @list l0
        {mso-list-id:409620233;
        mso-list-type:hybrid;
        mso-list-template-ids:-390952420 1390079266 67698691 67698693 67698689 67698691 67698693 67698689 67698691 67698693;}
@list l0:level1
        {mso-level-number-format:bullet;
        mso-level-text:-;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:20.25pt;
        text-indent:-.25in;
        font-family:"Calibri","sans-serif";
        mso-fareast-font-family:Calibri;
        mso-bidi-font-family:"Times New Roman";}
ol
        {margin-bottom:0in;}
ul
        {margin-bottom:0in;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Chen Weiguang,<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>&nbsp; In your mpd command I see npcus=8.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Doesn&#8217;t that mean 8 cpus per node?<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Perhaps mpiexec starts all 8 on one node first<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>before starting any on other nodes.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>&nbsp; &nbsp;I suggest that you try the script again with nodes=2:ppn=8<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>And use mpiexec &#8211;n 16<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>(or if you cannot use ppn=8. Just use mpiexec &#8211;n 16 &#8230; )<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoListParagraph style='margin-left:20.25pt;text-indent:-.25in;
mso-list:l0 level1 lfo1'><![if !supportLists]><span style='font-size:11.0pt;
font-family:"Calibri","sans-serif";color:#1F497D'><span style='mso-list:Ignore'>-<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span></span><![endif]><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Jim Coyle<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'>

<p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span
style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'> Weiguang Chen
[mailto:chenweiguang82@gmail.com] <br>
<b>Sent:</b> Tuesday, March 02, 2010 1:56 PM<br>
<b>To:</b> Coyle, James J [ITACD]; torqueusers maillist<br>
<b>Subject:</b> Re: [torqueusers] Job can not be allocated correctly<o:p></o:p></span></p>

</div>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal style='margin-bottom:12.0pt'>James,<br>
<br>
Thanks for you reply.<br>
In our cluster, the mpd has been started as a dameon when the cluster setup, as
follow:<br>
00:00:01 python2.4 /home/software/mpich2-1.1.1p1-intel/bin/mpd --daemon
--listenport=33013 --ncpus=8<br>
likewise, in the compute nodes, following command is executed:<br>
/home/software/mpich2-1.1.1p1-intel/bin/mpd --daemon --host=node1 --port=33013
--ncpus=8<br>
and i executed the command:mpdtrace -l, which shows the communicati<br>
on is well during these nodes.<br>
<br>
After above setting, whether it is not necessary to use mpdboot and mpdexit.<br>
I also try to add the above command to my job script as the url in your email,
but problems still happen.<o:p></o:p></p>

<div>

<p class=MsoNormal>2010/3/2 Coyle, James J [ITACD] &lt;<a
href="mailto:jjc@iastate.edu">jjc@iastate.edu</a>&gt;<o:p></o:p></p>

<div>

<div>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'>ChenWeiguang,<o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>Mpich is not aware of the nodes that the
scheduler assigned.</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>For MPICH-2 you need to use mpdbooot at
the beginning of your Torque script and mpdexit</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>at the end.&nbsp; You can look at :</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'><a
href="http://beige.ucs.indiana.edu/I590/node58.html" target="_blank">http://beige.ucs.indiana.edu/I590/node58.html</a></span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>for an example of how these can be used
in a PBS or Torque job.</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp; If Torque was built with the tm
interface, then if you install and use OpenMPI</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>you won&#8217;t need these, as the TM
interface is used by OpenMPI to know which</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>nodes are assigned.&nbsp; I changed from
MPICH to OpenMPI when going from </span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>MPI-1 to MPI-2 due to this issue.</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;James Coyle, PhD</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;High Performance Computing
Group&nbsp;&nbsp;&nbsp;&nbsp; </span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;115 Durham
Center&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;Iowa State Univ.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;phone: (515)-294-2099</span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;Ames, Iowa
50011&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; web: <a
href="http://www.public.iastate.edu/%7Ejjc" target="_blank">http://www.public.iastate.edu/~jjc</a></span><o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span
style='font-size:11.0pt;color:#1F497D'>&nbsp;</span><o:p></o:p></p>

<div style='border:none;border-top:solid windowtext 1.0pt;padding:3.0pt 0in 0in 0in;
border-color:-moz-use-text-color -moz-use-text-color'>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><b><span
style='font-size:10.0pt'>From:</span></b><span style='font-size:10.0pt'> <a
href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>
[mailto:<a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>]
<b>On Behalf Of </b>Weiguang Chen<br>
<b>Sent:</b> Tuesday, March 02, 2010 3:26 AM<br>
<b>To:</b> torqueusers maillist<br>
<b>Subject:</b> [torqueusers] Job can not be allocated correctly</span><o:p></o:p></p>

</div>

<div>

<div>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'>&nbsp;<o:p></o:p></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;margin-bottom:12.0pt'>Hi, all<br>
<br>
In fact, I can not sure whether Torque or mpich cause this problem. I just
express my problem as follow a exapmle script:<br>
#!/bin/bash<br>
### Job name<br>
#PBS -N name<br>
#PBS -q batch<br>
### number of numbers and process per node<br>
#PBS -l nodes=2:ppn=4<br>
### Job's error output&nbsp; <br>
#PBS -e error<br>
### Job's general output<br>
#PBS -o stdout<br>
<br>
cd $PBS_O_WORKDIR<br>
echo &quot;Job begin at &quot;`date`<br>
# program examples<br>
mpiexec -n 8 $PBS_O_WORKDIR/cpi<br>
echo &quot;Job stop at &quot;`date`<br>
<br>
exit 0<br>
<br>
cpi is a example progrm in mpich package. Our cluster profile is two processors
with every 4 cores, i.e. 8 cores per one node. But the message from the above
job is as follow when i submit this job:<br>
Process 0 on node5<br>
Process 1 on node5<br>
Process 2 on node5<br>
Process 3 on node5<br>
Process 5 on node5<br>
Process 6 on node5<br>
Process 4 on node5<br>
Process 7 on node5&nbsp; <br>
<br>
All processes are ran on one node, but i allocated 2 nodes. I don't know what
cause it happen, and how to solve it.<br>
Thanks<br>
<br>
PS: Torque version:2.4.6, mpich:2-1.1.1p1, mpiexec:0.83<br>
--<br>
Best Wishes <br>
ChenWeiguang<br>
<br>
************************************************<br>
# &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Chen, Weiguang <br>
#<br>
# &nbsp; &nbsp;Postgraduate, &nbsp;Ph. D<br>
# &nbsp;75 University Road, Physics Buliding &nbsp;# &nbsp;218<br>
# &nbsp;School of Physics &amp; Engineering<br>
# &nbsp;Zhengzhou University<br>
# &nbsp;Zhengzhou, Henan 450052 &nbsp;CHINA<br>
#<br>
# &nbsp;Tel: 86-13203730117;<br>
# &nbsp;<a href="mailto:E-mail%3Achenweiguang82@gmail.com" target="_blank">E-mail:chenweiguang82@gmail.com</a>;<br>
# &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a
href="mailto:chenweiguang82@qq.com" target="_blank">chenweiguang82@qq.com</a><br>
#<br>
**********************************************<o:p></o:p></p>

</div>

</div>

</div>

</div>

</div>

<p class=MsoNormal style='margin-bottom:12.0pt'><br>
<br clear=all>
<br>
-- <br>
Best Wishes<br>
ChenWeiguang<br>
<br>
************************************************<br>
# &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Chen, Weiguang <br>
#<br>
# &nbsp; &nbsp;Postgraduate, &nbsp;Ph. D<br>
# &nbsp;75 University Road, Physics Buliding &nbsp;# &nbsp;218<br>
# &nbsp;School of Physics &amp; Engineering<br>
# &nbsp;Zhengzhou University<br>
# &nbsp;Zhengzhou, Henan 450052 &nbsp;CHINA<br>
#<br>
# &nbsp;Tel: 86-13203730117;<br>
# &nbsp;<a href="mailto:E-mail%3Achenweiguang82@gmail.com">E-mail:chenweiguang82@gmail.com</a>;<br>
# &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a
href="mailto:chenweiguang82@qq.com">chenweiguang82@qq.com</a><br>
#<br>
**********************************************<o:p></o:p></p>

</div>

</body>

</html>