<HTML dir=ltr><HEAD><TITLE>[Mauiusers] mpi job on multi-core nodes,fails to run on multiple nodes</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText97520 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>#PBS -l nodes=4:ppn=4 will request four nodes with four processors per node.&nbsp; </FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>#PBS -l nodes=4:ppn=1 will request four nodes with one processor per node.</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>the MPI problem is a separate issue...</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> mauiusers-bounces@supercluster.org on behalf of Mary Ellen Fitzpatrick<BR><B>Sent:</B> Fri 10/31/2008 11:45 AM<BR><B>To:</B> mauiusers@supercluster.org; Mary Ellen Fitzpatrick<BR><B>Subject:</B> [Mauiusers] mpi job on multi-core nodes,fails to run on multiple nodes<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>Hi,<BR>Trying to figure out if this is an maui or mpi issue.&nbsp; I have 48<BR>(dual-dual core cpus) linux cluster.&nbsp; I have torque-2.3.3,<BR>maui-3.2.6p19, mpich2-1.07 installed.&nbsp; Not sure if I have maui<BR>configured correctly.&nbsp; What I want to do is submit an mpi job that runs<BR>one process/per node requests all 4 cores on the node and I want to<BR>submit this one process to 4 nodes.<BR><BR>If I request in my pbs script 1 node with 4 processors, then it works<BR>fine:&nbsp; #PBS -l nodes=1:ppn=4, everything runs on one node 4 cpus, mpi<BR>output says everything ran perfect.<BR><BR>If I request in my pbs script 4 nodes with 4 processors then it fails:<BR>#PBS -l nodes=4:ppn=4, my epilogue/proloque output file say the job ran<BR>on 4 nodes and requests 16 processors.<BR><BR>But my mpi output file says it crashed:<BR>--snippet--<BR>Initializing MPI Routines...<BR>Initializing MPI Routines...<BR>Initializing MPI Routines...<BR>Initializing MPI Routines...<BR>rank 15 in job 29&nbsp; node1047_40014&nbsp;&nbsp; caused collective abort of all ranks<BR>&nbsp; exit status of rank 15: killed by signal 9<BR>rank 13 in job 29&nbsp; node1047_40014&nbsp;&nbsp; caused collective abort of all ranks<BR>&nbsp; exit status of rank 13: killed by signal 9<BR>rank 12 in job 29&nbsp; node1047_40014&nbsp;&nbsp; caused collective abort of all ranks<BR>&nbsp; exit status of rank 12: return code 0<BR>--snippet--<BR><BR>Maui.cfg pertinent info:<BR>JOBPRIOACCRUALPOLOCY&nbsp;&nbsp;&nbsp; ALWAYS # accrue priority as soon as job is submitted<BR>JOBNODEMATCHPOLICY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; EXACTNODE<BR>NODEALLOCATIONPOLICY&nbsp;&nbsp;&nbsp; MINRESOURCE<BR>NODEACCESSPOLICY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SHARED<BR><BR>/var/spool/torque/server_priv/nodes file<BR>node1048 np=4<BR>etc<BR><BR>torque queue info:<BR>set queue spartans queue_type = Execution<BR>set queue spartans resources_default.neednodes = spartans<BR>set queue spartans resources_default.nodes = 1<BR>set queue spartans enabled = True<BR>set queue spartans started = True<BR><BR>Anyone know why my mpi job is crashing?&nbsp; Or if this is an maui/torque or<BR>mpi issue?<BR><BR>--<BR><BR>Thanks<BR>Mary Ellen<BR><BR>_______________________________________________<BR>mauiusers mailing list<BR>mauiusers@supercluster.org<BR><A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR></FONT></P></DIV></BODY></HTML>