<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal>HI All,<o:p></o:p></p>

<p class=MsoNormal>I have a weird issue with our cluster.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>I can run MPI manually without an issue, with MPICH.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>/apps/mpich/1.2.7p1/bin/mpirun -machinefile machinefile.txt
-np 16 /scratch/bjoseph/mpi_test/cpi<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>That runs fine, the cpi command gives me the output I was
expecting, and I can see all the processes execute on the requested nodes.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>I can&#8217;t however run that in a qsub script, and I can&#8217;t
run an interactive job over multiple nodes.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>qsub &#8211;I &#8211;l nodes=1:ppn=6 runs fine.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>qsub &#8211;I &#8211;l nodes=2:ppn=6 hangs. The job looks
like its running in the queue, but I never get a shell. I can&#8217;t find any
useful info in any of the logs either.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>With PBSDEBUG=yes this is the only output I get:<o:p></o:p></p>

<p class=MsoNormal>bjoseph@r1lead:~&gt; qsub -I -l nodes=2:ppn=8<o:p></o:p></p>

<p class=MsoNormal>xauth_path=/usr/X11R6/bin/xauth<o:p></o:p></p>

<p class=MsoNormal>pbs_connect using default server name list
&quot;r1lead&quot;<o:p></o:p></p>

<p class=MsoNormal>pbs_connect attempting connection to server
&quot;r1lead&quot;<o:p></o:p></p>

<p class=MsoNormal>pbs_connect: Successful connection to server
&quot;r1lead&quot;, fd = 1<o:p></o:p></p>

<p class=MsoNormal>qsub: waiting for job 1996.r1lead.ice.ice.internal to start<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>I get the same kind of thing running the MPI over multiple
nodes as well. The jobs submits, and looks like its running, but you check the
nodes its running on and there is nothing.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>I can&#8217;t find anything logged anywhere, and I&#8217;m
pulling my hair out trying to fix it!<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>Any help would be greatly appreciated.<o:p></o:p></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal>Regards,<o:p></o:p></p>

<p class=MsoNormal>Ben.<o:p></o:p></p>

<p class=MsoNormal><span style='color:#1F497D'>-- <br>
Ben Joseph<br>
HPC Administrator<br>
Information Technology Resources/ TPAC<br>
<a href="http://www.tpac.org.au"><span style='color:blue'>www.tpac.org.au</span></a><br>
<a href="mailto:Ben.Joseph@utas.edu.au"><span style='color:blue'>Ben.Joseph@utas.edu.au</span></a><br>
Ph: (03) 6226 6217<br>
<br>
That's what's cool about working with computers. They don't argue, they
remember everything and they don't drink all your beer.<o:p></o:p></span></p>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

</div>

</body>

</html>