<div dir="ltr"><div>First, pardon me for my obvious ignorance.  I&#39;m new to hpc administration and I&#39;ve managed to get torque and maui working with some queues, but I now have eager grad students and professors who want to use their cluster.  We&#39;re having a problem when we try and run parallel jobs with openmpi. </div>

<div><br></div>More specifically, we&#39;re trying to run parallel jobs with openmpi while making use of the $tmpdir variable as a staging area of sorts.  The theory is that users with large jobs would copy their executables, configs, etc. into the $tmpdir and when done copy the results back out.  We can run a job against one node, but when we try a couple the $tmpdir is only created on one node and the job fails to run.  We&#39;re trying to emulate something we&#39;ve seen explained well by the folks at Wayne State  Something like this to do all the copying:<div>

<br></div><div><span style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px;background-color:rgb(189,210,204)">cd $TMPDIR</span><br style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px">

<span style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px;background-color:rgb(189,210,204)">cp /wsu/home/at/at80/at8036/pbs/job_name/script_file $TMPDIR</span><br style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px">

<span style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px;background-color:rgb(189,210,204)">cp /wsu/home/at/at80/at8036/pbs/job_name/data_file $TMPDIR</span><br style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px">

<br style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px"><span style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px;background-color:rgb(189,210,204)">$TMPDIR/$myexefile </span><br style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px">

<br style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px"><span style="color:rgb(0,0,0);font-family:Verdana,Arial,Helvetica,sans-serif;font-size:11px;background-color:rgb(189,210,204)">mv $TMPDIR/* /wsu/home/at/at80/at8036/pbs/job_name/completed/.</span></div>

<div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px"><br></span></font></div><div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px">I&#39;m leaving out the PBS directives stanza.</span></font></div>

<div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px"><br></span></font></div><div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px">We are using Torque version 4.2.2 and Maui 3.3.1.  We haven&#39;t tweaked Maui at all.  It&#39;s the default install right now, and the Torque setup is pretty minimal with queues and server that look like this:</span></font></div>

<div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px"><br></span></font></div><div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px">So after many experiments we are wondering why torque perseverates on node-32 or node-22? (which is where the $tmpdir gets created)  Why doesn&#39;t it setup the environment on the other nodes even though they are allocated? </span></font></div>

<div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px"><br></span></font></div><div><font color="#000000" face="Verdana, Arial, Helvetica, sans-serif"><span style="font-size:11px">I&#39;m including the results of qmgr -c &#39;p s&#39;</span></font></div>

<div>







<p class="">#</p>
<p class=""># Create queues and set their attributes.</p>
<p class="">#</p>
<p class="">#</p>
<p class=""># Create and define queue cpu.q</p>
<p class="">#</p>
<p class="">create queue cpu.q</p>
<p class="">set queue cpu.q queue_type = Execution</p>
<p class="">set queue cpu.q acl_host_enable = False</p>
<p class="">set queue cpu.q acl_hosts = node-29.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-28.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-27.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-26.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-25.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-24.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-23.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-32.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-31.cm.cluster</p>
<p class="">set queue cpu.q acl_hosts += node-30.cm.cluster</p>
<p class="">set queue cpu.q resources_max.walltime = 240:00:00</p>
<p class="">set queue cpu.q resources_min.walltime = 00:00:00</p>
<p class="">set queue cpu.q resources_default.neednodes = cpu</p>
<p class="">set queue cpu.q enabled = True</p>
<p class="">set queue cpu.q started = True</p>
<p class="">#</p>
<p class=""># Create and define queue gpu.q</p>
<p class="">#</p>
<p class="">create queue gpu.q</p>
<p class="">set queue gpu.q queue_type = Execution</p>
<p class="">set queue gpu.q acl_host_enable = False</p>
<p class="">set queue gpu.q acl_hosts = node-19.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-09.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-18.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-08.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-17.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-07.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-16.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-06.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-15.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-05.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-14.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-04.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-13.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-03.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-22.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-12.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-02.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-21.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-11.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-01.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-20.cm.cluster</p>
<p class="">set queue gpu.q acl_hosts += node-10.cm.cluster</p>
<p class="">set queue gpu.q resources_max.walltime = 240:00:00</p>
<p class="">set queue gpu.q resources_min.walltime = 00:00:00</p>
<p class="">set queue gpu.q resources_default.neednodes = gpu</p>
<p class="">set queue gpu.q enabled = True</p>
<p class="">set queue gpu.q started = True</p>
<p class="">#</p>
<p class=""># Create and define queue batch</p>
<p class="">#</p>
<p class="">create queue batch</p>
<p class="">set queue batch queue_type = Execution</p>
<p class="">set queue batch acl_host_enable = False</p>
<p class="">set queue batch acl_hosts = node-29.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-19.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-09.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-28.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-18.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-08.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-27.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-17.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-07.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-26.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-16.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-06.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-25.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-15.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-05.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-24.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-14.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-04.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-23.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-13.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-03.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-32.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-22.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-12.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-02.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-31.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-21.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-11.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-01.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-30.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-20.cm.cluster</p>
<p class="">set queue batch acl_hosts += node-10.cm.cluster</p>
<p class="">set queue batch resources_max.walltime = 240:00:00</p>
<p class="">set queue batch resources_min.walltime = 00:00:00</p>
<p class="">set queue batch resources_default.walltime = 01:00:00</p>
<p class="">set queue batch enabled = True</p>
<p class="">set queue batch started = True</p>
<p class="">#</p>
<p class=""># Create and define queue all.q</p>
<p class="">#</p>
<p class="">create queue all.q</p>
<p class="">set queue all.q queue_type = Execution</p>
<p class="">set queue all.q acl_host_enable = False</p>
<p class="">set queue all.q acl_hosts = node-29.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-19.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-09.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-28.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-18.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-08.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-27.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-17.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-07.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-26.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-16.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-06.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-25.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-15.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-05.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-24.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-14.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-04.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-23.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-13.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-03.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-32.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-22.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-12.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-02.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-31.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-21.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-11.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-01.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-30.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-20.cm.cluster</p>
<p class="">set queue all.q acl_hosts += node-10.cm.cluster</p>
<p class="">set queue all.q resources_max.walltime = 240:00:00</p>
<p class="">set queue all.q resources_min.walltime = 00:00:00</p>
<p class="">set queue all.q resources_default.neednodes = all</p>
<p class="">set queue all.q enabled = True</p>
<p class="">set queue all.q started = True</p>
<p class="">#</p>
<p class=""># Set server attributes.</p>
<p class="">#</p>
<p class="">set server acl_hosts = master.cm.cluster</p>
<p class="">set server default_queue = batch</p>
<p class="">set server log_events = 511</p>
<p class="">set server mail_from = adm</p>
<p class="">set server scheduler_iteration = 600</p>
<p class="">set server node_check_rate = 150</p>
<p class="">set server tcp_timeout = 300</p>
<p class="">set server job_stat_rate = 45</p>
<p class="">set server poll_jobs = True</p>
<p class="">set server mom_job_sync = True</p>
<p class="">set server next_job_number = 372</p>
<p class="">set server moab_array_compatible = True</p>
<p class="">[roo</p><div><br></div><div><br clear="all"><div><br></div>-- <br><div dir="ltr">Jack Vant<br>System Engineer - HPC<br>Office of Information Technology<br>Boise State University<br>208-426-4446<br>208-863-0031</div>


</div></div></div>