<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <div class="moz-cite-prefix"><br>
      We have 2 other clusters which run the same version (4.1.5.1) and
      they both work fine.<br>
      It's nice to know why this cluster is having problem.&nbsp; This is a
      much older cluster than<br>
      the other 2 and not sure if the version of MPI has anything to do
      with it.<br>
      <br>
      If we can isolate where the problem is (either torque, maui or
      MPI), it will help a lot.<br>
      From the output of the strace, can you help identify where the
      problem occur?<br>
      <br>
      Thanks.<br>
      <br>
      Steven.<br>
      <br>
      <br>
      On 10/15/2013 04:07 PM, Ken Nielson wrote:<br>
    </div>
    <blockquote
cite="mid:CADvLK3cm48s3Gm-vHQ=yvtrOmEnP1NVTkW8o+Yp2Kdv-CyQvRw@mail.gmail.com"
      type="cite">
      <div dir="ltr">
        <div>
          <div>I ran the example against 4.2-dev and it works.<br>
            <br>
          </div>
          The 4.1.x branch is going to be deprecated soon. Is there a
          reason you don't try 4.2.5.h3?<br>
          <br>
        </div>
        Ken <br>
      </div>
      <div class="gmail_extra">
        <br>
        <br>
        <div class="gmail_quote">On Tue, Oct 15, 2013 at 4:04 PM, Steven
          Lo <span dir="ltr">&lt;<a moz-do-not-send="true"
              href="mailto:slo@cacr.caltech.edu" target="_blank">slo@cacr.caltech.edu</a>&gt;</span>
          wrote:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0
            .8ex;border-left:1px #ccc solid;padding-left:1ex">
            <br>
            Hi,<br>
            <br>
            We just upgraded our Torque server to 4.1.5.1 and we are
            having trouble of running a simple MPI<br>
            program with just 2 nodes:<br>
            <br>
            /* C Example of hello_world with 4 basic mpi calls */<br>
            #include &lt;stdio.h&gt;<br>
            #include &lt;mpi.h&gt;<br>
            <br>
            <br>
            int main (argc, argv)<br>
            &nbsp; &nbsp; &nbsp;int argc;<br>
            &nbsp; &nbsp; &nbsp;char *argv[];<br>
            {<br>
            &nbsp; int rank, size;<br>
            <br>
            &nbsp; MPI_Init (&amp;argc, &amp;argv); &nbsp; &nbsp;/* starts MPI */<br>
            &nbsp; MPI_Comm_rank (MPI_COMM_WORLD, &amp;rank); &nbsp; &nbsp;/* get
            current process id */<br>
            &nbsp; MPI_Comm_size (MPI_COMM_WORLD, &amp;size); &nbsp; &nbsp;/* get
            number of processes */<br>
            &nbsp; printf( "Hello world from process %d of %d\n", rank, size
            );<br>
            &nbsp; MPI_Finalize();<br>
            &nbsp; return 0;<br>
            }<br>
            <br>
            <br>
            &gt;From the 'strace' (output attached), it looks like the
            pbs_mom (on 172.18.1.188) is not able to<br>
            communicate properly with the sister node (172.18.1.172):<br>
            <br>
            &nbsp; &nbsp; shc172 - daemon did not report back when launched<br>
            <br>
            <br>
            <br>
            The 'qstat -n' shows the job is queued properly:<br>
            <br>
            shc188: qstat -n<br>
            <br>
            maitre:<br>
            Req'd &nbsp; &nbsp;Req'd &nbsp; &nbsp; &nbsp;Elap<br>
            Job ID &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Username &nbsp; &nbsp;Queue &nbsp; &nbsp;Jobname &nbsp; &nbsp; &nbsp; &nbsp;
            &nbsp;SessID NDS &nbsp; TSK &nbsp; &nbsp;Memory &nbsp; Time &nbsp; S &nbsp; Time<br>
            -------------------- ----------- -------- ----------------
            ------ ----- ------ ------ -------- - --------<br>
            444347.maitre &nbsp; &nbsp; &nbsp; &nbsp;sharon &nbsp; &nbsp; &nbsp;weekdayQ STDIN 0 &nbsp; &nbsp; 2 &nbsp; &nbsp;
            &nbsp;2 &nbsp; &nbsp;-- &nbsp;00:30:00 R &nbsp; &nbsp; &nbsp;--<br>
            &nbsp; &nbsp;shc188/0+shc172/0<br>
            <br>
            <br>
            <br>
            The section in the strace which puzzle us is the following:<br>
            <br>
            socket(PF_INET, SOCK_STREAM, IPPROTO_IP) = 12<br>
            setsockopt(12, SOL_SOCKET, SO_LINGER, {onoff=1, linger=5},
            8) = 0<br>
            connect(12, {sa_family=AF_INET, sin_port=htons(15003),
            sin_addr=inet_addr("127.0.0.1")}, 16) = 0<br>
            mmap(NULL, 528384, PROT_READ|PROT_WRITE,
            MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2b3a50008000<br>
            write(12, "+2+12+13444344.maitre2+32F8908E4"..., 66) = 66<br>
            poll([{fd=12, events=POLLIN|POLLHUP}], 1, <a
              moz-do-not-send="true" href="tel:2147483647"
              value="+12147483647" target="_blank">2147483647</a>) = 1
            ([{fd=12, revents=POLLIN}])<br>
            fcntl(12, F_GETFL) &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;= 0x2 (flags O_RDWR)<br>
            read(12, "", 262144) &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;= 0<br>
            close(12) &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; = 0<br>
            poll([{fd=4, events=POLLIN}, {fd=5, events=POLLIN}, {fd=6,
            events=POLLIN}, {fd=7, events=POLLIN}, {fd=9,
            events=POLLIN}], 5, 1000) = 0 (Timeout)<br>
            sched_yield() &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; = 0<br>
            poll([{fd=4, events=POLLIN}, {fd=5, events=POLLIN}, {fd=6,
            events=POLLIN}, {fd=7, events=POLLIN}, {fd=9,
            events=POLLIN}], 5, 1000) = 0 (Timeout)<br>
            sched_yield() &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; = 0<br>
            &nbsp; &nbsp; .<br>
            &nbsp; &nbsp; .<br>
            &nbsp; &nbsp; .<br>
            <br>
            <br>
            <br>
            I don't think the firewall is an issue since we are allowing
            all packets from/to nodes in the private network.<br>
            <br>
            <br>
            Your suggestion on how to debug is much appreciated.<br>
            <br>
            <br>
            Thanks.<span class="HOEnZb"><font color="#888888"><br>
                <br>
                Steven.<br>
                <br>
                <br>
              </font></span><br>
            _______________________________________________<br>
            torqueusers mailing list<br>
            <a moz-do-not-send="true"
              href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
            <a moz-do-not-send="true"
              href="http://www.supercluster.org/mailman/listinfo/torqueusers"
              target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
            <br>
          </blockquote>
        </div>
        <br>
        <br clear="all">
        <br>
        -- <br>
        Ken Nielson<br>
        +1 801.717.3700 office +1 801.717.3738 fax<br>
        1712 S. East Bay Blvd, Suite 300&nbsp; Provo, UT&nbsp; 84606<br>
        <a moz-do-not-send="true"
          href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br>
        <br>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
torqueusers mailing list
<a class="moz-txt-link-abbreviated" href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a class="moz-txt-link-freetext" href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>