<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <div class="moz-cite-prefix"><br>
      Forget to include the job commands:<br>
      <br>
      shc-b: qsub -I -l nodes=2:core8:ppn=1<br>
      qsub: waiting for job 444347.maitre to start<br>
      qsub: job 444347.maitre ready<br>
      <br>
      [ using intel_11.1 ]<br>
      [ using openmpi_1.4.3_intel_11.1 ]<br>
      [ using totalview_8.7 ]<br>
      <br>
      shc188: mpirun -np 2 ./hello_world <br>
      <br>
      <br>
      On 10/15/2013 03:04 PM, Steven Lo wrote:<br>
    </div>
    <blockquote cite="mid:525DBBF2.808@cacr.caltech.edu" type="cite">
      <br>
      Hi,
      <br>
      <br>
      We just upgraded our Torque server to 4.1.5.1 and we are having
      trouble of running a simple MPI
      <br>
      program with just 2 nodes:
      <br>
      <br>
      /* C Example of hello_world with 4 basic mpi calls */
      <br>
      #include &lt;stdio.h&gt;
      <br>
      #include &lt;mpi.h&gt;
      <br>
      <br>
      <br>
      int main (argc, argv)
      <br>
      &nbsp;&nbsp;&nbsp;&nbsp; int argc;
      <br>
      &nbsp;&nbsp;&nbsp;&nbsp; char *argv[];
      <br>
      {
      <br>
      &nbsp; int rank, size;
      <br>
      <br>
      &nbsp; MPI_Init (&amp;argc, &amp;argv);&nbsp;&nbsp;&nbsp; /* starts MPI */
      <br>
      &nbsp; MPI_Comm_rank (MPI_COMM_WORLD, &amp;rank);&nbsp;&nbsp;&nbsp; /* get current
      process id */
      <br>
      &nbsp; MPI_Comm_size (MPI_COMM_WORLD, &amp;size);&nbsp;&nbsp;&nbsp; /* get number of
      processes */
      <br>
      &nbsp; printf( "Hello world from process %d of %d\n", rank, size );
      <br>
      &nbsp; MPI_Finalize();
      <br>
      &nbsp; return 0;
      <br>
      }
      <br>
      <br>
      <br>
      From the 'strace' (output attached), it looks like the pbs_mom (on
      172.18.1.188) is not able to
      <br>
      communicate properly with the sister node (172.18.1.172):
      <br>
      <br>
      &nbsp;&nbsp;&nbsp; shc172 - daemon did not report back when launched
      <br>
      <br>
      <br>
      <br>
      The 'qstat -n' shows the job is queued properly:
      <br>
      <br>
      shc188: qstat -n
      <br>
      <br>
      maitre:
      <br>
      Req'd&nbsp;&nbsp;&nbsp; Req'd&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Elap
      <br>
      Job ID&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Username&nbsp;&nbsp;&nbsp; Queue&nbsp;&nbsp;&nbsp; Jobname&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SessID
      NDS&nbsp;&nbsp; TSK&nbsp;&nbsp;&nbsp; Memory&nbsp;&nbsp; Time&nbsp;&nbsp; S&nbsp;&nbsp; Time
      <br>
      -------------------- ----------- -------- ---------------- ------
      ----- ------ ------ -------- - --------
      <br>
      444347.maitre&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; sharon&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; weekdayQ STDIN 0&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp;&nbsp;
      --&nbsp; 00:30:00 R&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --
      <br>
      &nbsp;&nbsp; shc188/0+shc172/0
      <br>
      <br>
      <br>
      <br>
      The section in the strace which puzzle us is the following:
      <br>
      <br>
      socket(PF_INET, SOCK_STREAM, IPPROTO_IP) = 12
      <br>
      setsockopt(12, SOL_SOCKET, SO_LINGER, {onoff=1, linger=5}, 8) = 0
      <br>
      connect(12, {sa_family=AF_INET, sin_port=htons(15003),
      sin_addr=inet_addr("127.0.0.1")}, 16) = 0
      <br>
      mmap(NULL, 528384, PROT_READ|PROT_WRITE,
      MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2b3a50008000
      <br>
      write(12, "+2+12+13444344.maitre2+32F8908E4"..., 66) = 66
      <br>
      poll([{fd=12, events=POLLIN|POLLHUP}], 1, 2147483647) = 1
      ([{fd=12, revents=POLLIN}])
      <br>
      fcntl(12, F_GETFL)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; = 0x2 (flags O_RDWR)
      <br>
      read(12, "", 262144)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; = 0
      <br>
      close(12)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; = 0
      <br>
      poll([{fd=4, events=POLLIN}, {fd=5, events=POLLIN}, {fd=6,
      events=POLLIN}, {fd=7, events=POLLIN}, {fd=9, events=POLLIN}], 5,
      1000) = 0 (Timeout)
      <br>
      sched_yield()&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; = 0
      <br>
      poll([{fd=4, events=POLLIN}, {fd=5, events=POLLIN}, {fd=6,
      events=POLLIN}, {fd=7, events=POLLIN}, {fd=9, events=POLLIN}], 5,
      1000) = 0 (Timeout)
      <br>
      sched_yield()&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; = 0
      <br>
      &nbsp;&nbsp;&nbsp; .
      <br>
      &nbsp;&nbsp;&nbsp; .
      <br>
      &nbsp;&nbsp;&nbsp; .
      <br>
      <br>
      <br>
      <br>
      I don't think the firewall is an issue since we are allowing all
      packets from/to nodes in the private network.
      <br>
      <br>
      <br>
      Your suggestion on how to debug is much appreciated.
      <br>
      <br>
      <br>
      Thanks.
      <br>
      <br>
      Steven.
      <br>
      <br>
      <br>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
torqueusers mailing list
<a class="moz-txt-link-abbreviated" href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a class="moz-txt-link-freetext" href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>