<HTML><BODY style="word-wrap: break-word; -khtml-nbsp-mode: space; -khtml-line-break: after-white-space; "><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><FONT class="Apple-style-span" color="#006515" face="Verdana">mpiexec: Warning: tasks 0-173,176-179,184-192,194-197 died with signal 4</FONT></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><FONT class="Apple-style-span" color="#006515" face="Verdana">(Illegal instruction).</FONT></DIV><DIV><BR class="khtml-block-placeholder"></DIV>That leads me to believe that its not compatible binaries... <BR><DIV> <SPAN class="Apple-style-span" style="border-collapse: separate; border-spacing: 0px 0px; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; text-align: auto; -khtml-text-decorations-in-effect: none; text-indent: 0px; -apple-text-size-adjust: auto; text-transform: none; orphans: 2; white-space: normal; widows: 2; word-spacing: 0px; "><BR class="Apple-interchange-newline"><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><BR class="khtml-block-placeholder"></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">- Donald Tripp</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "> <A href="mailto:dtripp@hawaii.edu">dtripp@hawaii.edu</A></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">----------------------------------------------</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">HPC Systems Administrator</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">High Performance Computing Center</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">University of Hawai'i at Hilo</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">200 W. Kawili Street</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Hilo,   Hawaii   96720</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><A href="http://www.hpc.uhh.hawaii.edu">http://www.hpc.uhh.hawaii.edu</A></DIV><BR class="Apple-interchange-newline"></SPAN> </DIV><BR><DIV><DIV>On Jan 24, 2007, at 11:14 AM, Brad Mecklenburg wrote:</DIV><BR class="Apple-interchange-newline"><BLOCKQUOTE type="cite"> <FONT face="Verdana, Helvetica, Arial"><SPAN style="font-size:12.0px">Yes, your assumption is correct.  The job was compiled on the IBM Open Power 720.  It was not recompiled on the Xserves. As a first test, wanted to see if the same compiled binary could be used on both clusters.  This may not be the case but wanted to see if any of you had any ideas based on the errors given.  Thanks. <BR> <BR> <BR> On 1/24/07 2:50 PM, "Donald Tripp" &lt;<A href="mailto:dtripp@hawaii.edu">dtripp@hawaii.edu</A>&gt; wrote:<BR> <BR> </SPAN></FONT><BLOCKQUOTE type="cite"><FONT face="Verdana, Helvetica, Arial"><SPAN style="font-size:12.0px">I'm assuming your using PPC xserves? I'm not sure whether the PPC in an Xserve and in the IBM servers are similar enough to work together to run jobs. On what machine type was the job compiled? <BR>  <BR> <BR> - Donald Tripp<BR>  <A href="mailto:dtripp@hawaii.edu">dtripp@hawaii.edu</A><BR> ----------------------------------------------<BR> HPC Systems Administrator<BR> High Performance Computing Center<BR> University of Hawai'i at Hilo<BR> 200 W. Kawili Street<BR> Hilo,   Hawaii   96720<BR> <A href="http://www.hpc.uhh.hawaii.edu">http://www.hpc.uhh.hawaii.edu</A><BR> <BR>  <BR> <BR> On Jan 24, 2007, at 10:36 AM, Brad Mecklenburg wrote:<BR> <BR> </SPAN></FONT><BLOCKQUOTE type="cite"><FONT face="Verdana, Helvetica, Arial"><SPAN style="font-size:12.0px">I have some questions on what I am doing wrong in the setup or<BR> implementation of running some pbs jobs.  I am trying to combine two<BR> clusters we have. One is an 128 node IBM Open Power 5 cluster (marvin)<BR> running SLES 9 and the other is a 128 node Apple Xserve cluster 9 (otis).<BR> The IBM cluster has pretty much remained in tact and we added the Apple<BR> cluster to it by putting OpenSuse 10.2 on them.<BR> <BR> Torque-2.1.2<BR> Maui-3.2.6p16<BR> Mx-1.2.1<BR> Mpich-mx 1.2.6..0.94<BR> Mpiexec.81<BR> <BR> We have addressed many issues but still something is wrong.  The head node<BR> of the IBM cluster is serving out everything.  I am currently trying to run<BR> a 128 node (256 proc) pbs job on the Apple nodes.  Have tried both mpirun<BR> and mpiexec in the pbs submit script but both give errors and I will show<BR> both of these. The same binary is being used for the IBM nodes and Apple<BR> nodes. I am able to run a test job of 64 nodes with ppn=2 but was not able<BR> with 100 nodes and the information giving is for running a 128 node ppn-2<BR> case. <BR> <BR> When I try to submit using either mpirun or mpiexec, the maui log gives this<BR> error:<BR> 01/24 11:21:58 INFO:     job '1661' Priority:        1<BR> 01/24 11:21:58 INFO:     job '1661' Priority:        1<BR> 01/24 11:21:58 MResDestroy(1661)<BR> 01/24 11:21:58 MResChargeAllocation(1661,2)<BR> 01/24 11:21:58 INFO:     256 feasible tasks found for job 1661:0 in<BR> partition DEFAULT (256 Needed)<BR> 01/24 11:21:58 ALERT:    inadequate tasks to allocate to job 1661:0 (176 &lt;<BR> 256)<BR> 01/24 11:21:58 ERROR:    cannot allocate nodes to job '1661' in partition<BR> DEFAULT<BR> <BR> The part of the error where it states 176 &lt; 256 changes throughout the log<BR> while the job is queued. I have seen 2 &lt; 256, 188 &lt; 256, 192 &lt; 256 and maybe<BR> more.  This probably is the problem but I am not sure why it says there are<BR> inadequate tasks when the line above it in the maui log says 256 feasible<BR> tasks and 256 needed.<BR> <BR> When using mpirun the job sits in the queue but if I do a qrun on the job<BR> id, the job will run, but not as expected.  In the pbs submit script I<BR> specify the Apple nodes to be run on.  But when I do a qrun, an Apple node<BR> is designated the mother superior node but the job runs on the IBM nodes.  I<BR> am not sure why this is the case.  Here is my pbs submit script and u can<BR> see I specify the Apple nodes with otis.  All of the nodes have the same<BR> attributes in /var/spool/torque/server_priv/nodes except the Apple nodes<BR> have otis and the IBM nodes have marvin.<BR> <BR> #!/bin/sh <BR> #PBS -N inter41 <BR> #PBS -l nodes=128:ppn=2:otis<BR> #PBS -l walltime=23:59:00<BR> #PBS -j oe<BR> #PBS -r n<BR> cd /home/jbennett/test<BR> <BR> CODE_PATH=/home/jbennett/CRAFT<BR> <BR> NPROCS=`wc -l &lt; $PBS_NODEFILE`<BR> date<BR> <BR> time /opt/mpiexec/bin/mpiexec -comm mx -n $NPROCS<BR> $CODE_PATH/craft_mb1006.exe -m<BR> pi<BR> #time mpirun.ch_mx -s --mx-kill 5 -np $NPROCS $CODE_PATH/craft_mb1006.exe<BR> -mpi<BR> <BR> I have changed back and forth using mpirun and mpiexec.<BR> <BR> When using mpiexec, the job sits in the queue and when I try to qrun the job<BR> I get the following errors<BR> number of processors =   256 186  r08n38<BR> number of processors =   256 151  r09n13<BR> number of processors =   256 118  r09n29<BR> MX:r08n26:Got a NACK:req status 8:Remote endpoint is closed<BR>         type (8): connect<BR>         state (0x0):<BR>         requeued: 1 (timeout=510000ms)<BR>         dest: 00:60:dd:48:1a:b4 (r10n15:0)<BR>         partner: peer_index=22, endpoint=1, seqnum=0x0<BR>         connect_seq: 0x1<BR> <BR> This continues on for many more of the compute nodes until it comes down to<BR> this error:<BR> MX:Aborting<BR> mpiexec: Warning: tasks 0-173,176-179,184-192,194-197 died with signal 4<BR> (Illegal instruction).<BR> mpiexec: Warning: tasks 174-175,180-181,193,198-255 exited with status 1.<BR> mpiexec: Warning: tasks 182-183 died with signal 15 (Terminated).<BR> <BR> <BR> <BR> Any ideas on what I may be doing wrong or forgot to change, or any helpful<BR> information would be appreciated.  Thanks.<BR> <BR> -- <BR> Brad Mecklenburg<BR> -- <BR> Brad Mecklenburg<BR> COLSA HMT-ROC<BR> Office: 256-721-0372 x 108<BR> Fax:  256-721-2466<BR> <BR> <BR> <BR> _______________________________________________<BR> torqueusers mailing list<BR> <A href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</A><BR> <A href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</A><BR>  <BR> </SPAN></FONT></BLOCKQUOTE><FONT face="Verdana, Helvetica, Arial"><SPAN style="font-size:12.0px"><BR> <BR> </SPAN></FONT></BLOCKQUOTE><FONT face="Verdana, Helvetica, Arial"><SPAN style="font-size:12.0px"><BR> <BR> -- <BR> Brad Mecklenburg<BR> COLSA HMT-ROC<BR> Office: 256-721-0372 x 108<BR> Fax:  256-721-2466<BR> <BR> </SPAN></FONT>  </BLOCKQUOTE></DIV><BR></BODY></HTML>