<HTML dir=ltr><HEAD><TITLE>Re: [Mauiusers] mpi job on multi-core nodes, fails to run on multiplenodes</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText84342 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>do the mpds start and exit properly when you do it this way?&nbsp; i've always started it from within my job file --&nbsp;i do something like:</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>#PBS -l nodes=4:ppn=4</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2>...</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2>mpdboot -n 4 -f $PBS_NODEFILE</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2>mpiexec ...</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2>mpdallexit</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>it's been a while since i've used an MPI with mpds, but i thought it just needed one mpd per host (not one per processor), right?&nbsp; that's why i start 4 here...</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> mauiusers-bounces@supercluster.org on behalf of Mary Ellen Fitzpatrick<BR><B>Sent:</B> Mon 11/3/2008 9:43 AM<BR><B>To:</B> Joseph Hargitai; mauiusers@supercluster.org; Mary Ellen Fitzpatrick<BR><B>Subject:</B> Re: [Mauiusers] mpi job on multi-core nodes, fails to run on multiplenodes<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>My pbs script<BR>-snippet<BR># Request 4 processor/node<BR>#PBS -l nodes=4:ppn=4<BR><BR># How many procs do I have?<BR>NP=$(wc -l $PBS_NODEFILE | awk '{print $1}')<BR>echo Number of processors is $NP<BR><BR>mpiexec -n $NP dock6.mpi -i dock.in -o dock.out &amp;&gt; dock.log<BR><BR>My output file list "Number of processors is 16" which is what I request<BR><BR><BR>I start all of the mpd on all of the nodes from the head node with the<BR>following command:<BR>mpdboot -n 47 -f /etc/mpd.hosts<BR><BR>Should I be starting the mpd daemon from within my pbs script?<BR><BR>/etc/mpd.hosts is on every compute node and lists the following:<BR>node1045:4<BR>node1046:4<BR>node1047:4<BR>node1048:4<BR><BR>My $PBS_NODEFILE has the following:<BR>node1045 np=4 lomem spartans<BR>node1046 np=4 lomem spartans<BR>node1047 np=4 lomem spartans<BR>node1048 np=4 lomem spartans<BR><BR>Thanks<BR>Mary Ellen<BR><BR>Joseph Hargitai wrote:<BR>&gt; What is in the pbs script? In most cases you need a -hostfile $PBS_NODEFILE&nbsp; entry, otherwise you get all processes piled on one node ie. the job does not know of other hosts than the one it landed on.<BR>&gt;<BR>&gt;<BR>&gt; j<BR>&gt;<BR>&gt; ----- Original Message -----<BR>&gt; From: Mary Ellen Fitzpatrick &lt;mfitzpat@bu.edu&gt;<BR>&gt; Date: Friday, October 31, 2008 11:45 am<BR>&gt; Subject: [Mauiusers] mpi job on multi-core nodes,&nbsp;&nbsp;&nbsp;&nbsp; fails to run on multiple nodes<BR>&gt;<BR>&gt;&nbsp;&nbsp;<BR>&gt;&gt; Hi,<BR>&gt;&gt; Trying to figure out if this is an maui or mpi issue.&nbsp; I have 48<BR>&gt;&gt; (dual-dual core cpus) linux cluster.&nbsp; I have torque-2.3.3,<BR>&gt;&gt; maui-3.2.6p19, mpich2-1.07 installed.&nbsp; Not sure if I have maui<BR>&gt;&gt; configured correctly.&nbsp; What I want to do is submit an mpi job that<BR>&gt;&gt; runs<BR>&gt;&gt; one process/per node requests all 4 cores on the node and I want to<BR>&gt;&gt; submit this one process to 4 nodes.<BR>&gt;&gt;<BR>&gt;&gt; If I request in my pbs script 1 node with 4 processors, then it works<BR>&gt;&gt;<BR>&gt;&gt; fine:&nbsp; #PBS -l nodes=1:ppn=4, everything runs on one node 4 cpus, mpi<BR>&gt;&gt;<BR>&gt;&gt; output says everything ran perfect.<BR>&gt;&gt;<BR>&gt;&gt; If I request in my pbs script 4 nodes with 4 processors then it fails:<BR>&gt;&gt;<BR>&gt;&gt; #PBS -l nodes=4:ppn=4, my epilogue/proloque output file say the job<BR>&gt;&gt; ran<BR>&gt;&gt; on 4 nodes and requests 16 processors.<BR>&gt;&gt;<BR>&gt;&gt; But my mpi output file says it crashed:<BR>&gt;&gt; --snippet--<BR>&gt;&gt; Initializing MPI Routines...<BR>&gt;&gt; Initializing MPI Routines...<BR>&gt;&gt; Initializing MPI Routines...<BR>&gt;&gt; Initializing MPI Routines...<BR>&gt;&gt; rank 15 in job 29&nbsp; node1047_40014&nbsp;&nbsp; caused collective abort of all ranks<BR>&gt;&gt;&nbsp;&nbsp; exit status of rank 15: killed by signal 9<BR>&gt;&gt; rank 13 in job 29&nbsp; node1047_40014&nbsp;&nbsp; caused collective abort of all ranks<BR>&gt;&gt;&nbsp;&nbsp; exit status of rank 13: killed by signal 9<BR>&gt;&gt; rank 12 in job 29&nbsp; node1047_40014&nbsp;&nbsp; caused collective abort of all ranks<BR>&gt;&gt;&nbsp;&nbsp; exit status of rank 12: return code 0<BR>&gt;&gt; --snippet--<BR>&gt;&gt;<BR>&gt;&gt; Maui.cfg pertinent info:<BR>&gt;&gt; JOBPRIOACCRUALPOLOCY&nbsp;&nbsp;&nbsp; ALWAYS # accrue priority as soon as job is submitted<BR>&gt;&gt; JOBNODEMATCHPOLICY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; EXACTNODE<BR>&gt;&gt; NODEALLOCATIONPOLICY&nbsp;&nbsp;&nbsp; MINRESOURCE<BR>&gt;&gt; NODEACCESSPOLICY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SHARED<BR>&gt;&gt;<BR>&gt;&gt; /var/spool/torque/server_priv/nodes file<BR>&gt;&gt; node1048 np=4<BR>&gt;&gt; etc<BR>&gt;&gt;<BR>&gt;&gt; torque queue info:<BR>&gt;&gt; set queue spartans queue_type = Execution<BR>&gt;&gt; set queue spartans resources_default.neednodes = spartans<BR>&gt;&gt; set queue spartans resources_default.nodes = 1<BR>&gt;&gt; set queue spartans enabled = True<BR>&gt;&gt; set queue spartans started = True<BR>&gt;&gt;<BR>&gt;&gt; Anyone know why my mpi job is crashing?&nbsp; Or if this is an maui/torque<BR>&gt;&gt; or<BR>&gt;&gt; mpi issue?<BR>&gt;&gt;<BR>&gt;&gt; --<BR>&gt;&gt;<BR>&gt;&gt; Thanks<BR>&gt;&gt; Mary Ellen<BR>&gt;&gt;<BR>&gt;&gt; _______________________________________________<BR>&gt;&gt; mauiusers mailing list<BR>&gt;&gt; mauiusers@supercluster.org<BR>&gt;&gt; <A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;<BR>&gt;&nbsp;&nbsp;<BR><BR>--<BR>Thanks<BR>Mary Ellen<BR><BR>_______________________________________________<BR>mauiusers mailing list<BR>mauiusers@supercluster.org<BR><A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR></FONT></P></DIV></BODY></HTML>