<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 12 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:Consolas;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p
        {mso-style-priority:99;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
code
        {mso-style-priority:99;
        font-family:"Courier New";}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0in;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";}
p.MsoNoSpacing, li.MsoNoSpacing, div.MsoNoSpacing
        {mso-style-priority:1;
        margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:Consolas;}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0in;
        margin-right:0in;
        margin-bottom:0in;
        margin-left:.5in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:Consolas;}
span.EmailStyle18
        {mso-style-type:personal;
        font-family:Consolas;
        color:windowtext;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:"Courier New";}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
/* List Definitions */
@list l0
        {mso-list-id:1962417877;
        mso-list-type:hybrid;
        mso-list-template-ids:-713020578 842684152 67698691 67698693 67698689 67698691 67698693 67698689 67698691 67698693;}
@list l0:level1
        {mso-level-start-at:5;
        mso-level-number-format:bullet;
        mso-level-text:-;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:20.25pt;
        text-indent:-.25in;
        font-family:"Calibri","sans-serif";
        mso-fareast-font-family:Calibri;
        mso-bidi-font-family:"Times New Roman";}
ol
        {margin-bottom:0in;}
ul
        {margin-bottom:0in;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">Mike,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;&nbsp; We had this issue with OpenMPI and the mca parameter
</span><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">mpi_paffinity_alone<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">setting mpi_paffinity_alone&nbsp; gives somewhat better performance than
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">not setting it due to better cache hits when there is only one job<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">running on a node.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">However, this places the N mpi processes on cores 0 to N-1<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">so for 3 four process MPI programs running on a 12 core node,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">you would have 3 processes each running on cores 0 through 3. &nbsp;&nbsp;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">Doing what you are doing, launching 3 jobs using 4 processes each with<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">openmpi and having mpi_paffinity_alone set on (perhaps by default) would
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">cause exactly the behavior you are seeing, you would have 3 mpi processes<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">rank 0 running on core 0, 3 rank 1 processes running on core 1, etc., and no<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">MPI processes running on cores 4-11.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">Perhaps mvapich has a similar mechanism to mpi_paffinity_alone that you are
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">encountering.&nbsp; man mpirun should help you figure this out, or you could ask
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">the cluster admin, or whoever is an expert in using mvapich in your environment.
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">&nbsp;&nbsp;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">Below, I have included part of the General run-time tuning portion of the FAQ for OpenMPI
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">from http://www.open-mpi.org/faq/<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">I hope this helps<o:p></o:p></span></p>
<p class="MsoListParagraph" style="margin-left:20.25pt;text-indent:-.25in;mso-list:l0 level1 lfo1">
<![if !supportLists]><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><span style="mso-list:Ignore">-<span style="font:7.0pt &quot;Times New Roman&quot;">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span></span><![endif]><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">Jim
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:16.0pt;color:#1F497D">James Coyle, PhD<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:16.0pt;color:#1F497D">High Performance Computing Group&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:16.0pt;color:#1F497D">&nbsp;Iowa State Univ.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:16.0pt;color:#1F497D">&nbsp;web: <a href="http://www.public.iastate.edu/~jjc">
<span style="color:blue">http://jjc.public.iastate.edu/</span></a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><a name="using-paffinity-v1.2"><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black">Open MPI 1.2 offers only crude control, with the MCA parameter &quot;</span></a><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">mpi_paffinity_alone</span><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black">&quot;.
 For example:<o:p></o:p></span></p>
<table class="MsoNormalTable" border="0" cellspacing="0" cellpadding="0" width="100%" style="width:100.0%">
<tbody>
<tr>
<td style="background:#E0E0E0;padding:3.75pt 3.75pt 3.75pt 3.75pt">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">$ mpirun --mca mpi_paffinity_alone 1 -np 4 a.out<o:p></o:p></span></p>
</td>
</tr>
</tbody>
</table>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black">(Just like any other MCA parameter,
</span><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;color:black">mpi_paffinity_alone</span><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black"> can be set<o:p></o:p></span></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black"><a href="http://www.open-mpi.org/faq/?category=tuning#setting-mca-params">via any of the normal MCA
 parameter mechanisms</a>.)<o:p></o:p></span></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black">On each node where your job is running, your job's MPI processes will be bound, one-to-one, in the order
 of their global MPI ranks, to the lowest-numbered processing units (for example, cores or hardware threads) on the node as identified by the OS. Further, memory affinity will also be enabled if it is supported on the node,<a href="http://www.open-mpi.org/faq/?category=tuning#maffinity-defs">as
 described in a different FAQ entry</a>.<o:p></o:p></span></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black">If multiple jobs are launched on the same node in this manner, they will compete for the same processing
 units and severe performance degradation will likely result. Therefore, this MCA parameter is best used when you know your job will be &quot;alone&quot; on the nodes where it will run.<o:p></o:p></span></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:9.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:black">Since each process is bound to a single processing unit, performance will likely suffer catastrophically
 if processes are multi-threaded.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> torqueusers-bounces@supercluster.org [mailto:torqueusers-bounces@supercluster.org]
<b>On Behalf Of </b>Zulauf, Michael<br>
<b>Sent:</b> Thursday, February 09, 2012 12:30 PM<br>
<b>To:</b> torqueusers@supercluster.org<br>
<b>Subject:</b> [torqueusers] problem with jobs sharing cores<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Hi all. . .<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I apologize if this message appears more than once &#8211; there was an issue with my email address and list registration (which I hope is now fixed), and so I&#8217;m having to resend this. . .<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Anyway, where I work, we&#8217;ve had a problem for a while that we haven&#8217;t been able to resolve.&nbsp; I&#8217;m not certain of the cause - if it&#8217;s related to Torque, or Maui, or something else.&nbsp; But here goes. . .<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">We&#8217;ve got a small cluster of 16 nodes, each with dual hex-core processors.&nbsp; 12 cores per node, 192 cores total.&nbsp; The problem is that if I launch small jobs, where multiple jobs should be able to share a node without sharing cores, I instead
 get cores that are running more than one process, while other cores are idle.&nbsp; The primary executable is WRF (weather prediction model), but the problem occurs for other parallel codes. &nbsp;The codes have been built to utilize MPI (not OpenMP, or MPI/OpenMP).<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">As an example, if I launch a series of jobs which request 4 cores each, I get 3 jobs assigned to each node.&nbsp; That should be fine, as each node has 12 cores, and there should be no need to share cores.&nbsp; Instead, I get 4 &#8220;overloaded&#8221; cores
 (each running 3 processes) and 8 idle cores.&nbsp; Obviously not an ideal situation.&nbsp; If I submit only a single small job, in which case it&#8217;s alone on a node, then it runs great.&nbsp; Similarly, if I launch a large job which spans more than one node, it also works
 well &#8211; as long as it&#8217;s not sharing nodes with other jobs.&nbsp; The problem only occurs (and always occurs) when parallel jobs share a node.&nbsp; BTW, the qsub command does not explicitly request specific cores, or anything like that.<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I&#8217;m not the administrator &#8211; just the primary user.&nbsp; The administrator (who was not previously familiar with Torque/Maui) has been struggling with this for a bit, and is rather busy with other duties, so I thought I&#8217;d check in here to see
 if anybody had suggestions I could pass along.<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Here are some specifics, as far as I know them:<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; HP blade hardware<o:p></o:p></p>
<p class="MsoNormal" style="text-indent:.5in">dual Intel Xeon X5670 processors<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Infiniband interconnect (not an issue in this case?)<o:p></o:p></p>
<p class="MsoNormal" style="text-indent:.5in">the CentOS equivalent of Red Hat 4.1.2-48 (not sure of what that is exactly)<o:p></o:p></p>
<p class="MsoNormal" style="text-indent:.5in">Torque 3.0.2<o:p></o:p></p>
<p class="MsoNormal" style="text-indent:.5in">mvapich2-1.7rc1<o:p></o:p></p>
<p class="MsoNormal" style="text-indent:.5in">PGI7.2-5 compilers<o:p></o:p></p>
<p class="MsoNormal" style="text-indent:.5in">WRF 3.3.1<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Any thoughts?&nbsp; I&#8217;ve probably left out relevant information.&nbsp; If so, please ask for clarification.<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Thanks,<o:p></o:p></p>
<p class="MsoNormal">Mike<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">-- <o:p></o:p></p>
<p class="MsoNormal">Mike Zulauf<o:p></o:p></p>
<p class="MsoNormal">Meteorologist, Lead Senior<o:p></o:p></p>
<p class="MsoNormal">Asset Optimization <o:p></o:p></p>
<p class="MsoNormal">Iberdrola Renewables<o:p></o:p></p>
<p class="MsoNormal">1125 NW Couch, Suite 700<o:p></o:p></p>
<p class="MsoNormal">Portland, OR 97209<o:p></o:p></p>
<p class="MsoNormal">Office: 503-478-6304&nbsp; Cell: 503-913-0403<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p><span style="font-size:7.5pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:#387000">This message is intended for the exclusive attention of the recipient(s) indicated.&nbsp; Any information contained herein is strictly confidential and privileged. If you are not the
 intended recipient, please notify us by return e-mail and delete this message from your computer system. Any unauthorized use, reproduction, alteration, filing or sending of this message and/or any attached files may lead to legal action being taken against
 the party(ies) responsible for said unauthorized use. Any opinion expressed herein is solely that of the author(s) and does not necessarily represent the opinion of the Company. The sender does not guarantee the integrity, speed or safety of this message,
 and does not accept responsibility for any possible damage arising from the interception, incorporation of viruses, or any other damage as a result of manipulation.<o:p></o:p></span></p>
</div>
</body>
</html>