<div dir="ltr"><div><div>I ran the example against 4.2-dev and it works.<br><br></div>The 4.1.x branch is going to be deprecated soon. Is there a reason you don&#39;t try 4.2.5.h3?<br><br></div>Ken <br></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Tue, Oct 15, 2013 at 4:04 PM, Steven Lo <span dir="ltr">&lt;<a href="mailto:slo@cacr.caltech.edu" target="_blank">slo@cacr.caltech.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Hi,<br>
<br>
We just upgraded our Torque server to 4.1.5.1 and we are having trouble of running a simple MPI<br>
program with just 2 nodes:<br>
<br>
/* C Example of hello_world with 4 basic mpi calls */<br>
#include &lt;stdio.h&gt;<br>
#include &lt;mpi.h&gt;<br>
<br>
<br>
int main (argc, argv)<br>
     int argc;<br>
     char *argv[];<br>
{<br>
  int rank, size;<br>
<br>
  MPI_Init (&amp;argc, &amp;argv);    /* starts MPI */<br>
  MPI_Comm_rank (MPI_COMM_WORLD, &amp;rank);    /* get current process id */<br>
  MPI_Comm_size (MPI_COMM_WORLD, &amp;size);    /* get number of processes */<br>
  printf( &quot;Hello world from process %d of %d\n&quot;, rank, size );<br>
  MPI_Finalize();<br>
  return 0;<br>
}<br>
<br>
<br>
>From the &#39;strace&#39; (output attached), it looks like the pbs_mom (on 172.18.1.188) is not able to<br>
communicate properly with the sister node (172.18.1.172):<br>
<br>
    shc172 - daemon did not report back when launched<br>
<br>
<br>
<br>
The &#39;qstat -n&#39; shows the job is queued properly:<br>
<br>
shc188: qstat -n<br>
<br>
maitre:<br>
Req&#39;d    Req&#39;d      Elap<br>
Job ID               Username    Queue    Jobname          SessID NDS   TSK    Memory   Time   S   Time<br>
-------------------- ----------- -------- ---------------- ------ ----- ------ ------ -------- - --------<br>
444347.maitre        sharon      weekdayQ STDIN 0     2      2    --  00:30:00 R      --<br>
   shc188/0+shc172/0<br>
<br>
<br>
<br>
The section in the strace which puzzle us is the following:<br>
<br>
socket(PF_INET, SOCK_STREAM, IPPROTO_IP) = 12<br>
setsockopt(12, SOL_SOCKET, SO_LINGER, {onoff=1, linger=5}, 8) = 0<br>
connect(12, {sa_family=AF_INET, sin_port=htons(15003), sin_addr=inet_addr(&quot;127.0.0.1&quot;<u></u>)}, 16) = 0<br>
mmap(NULL, 528384, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2b3a50008000<br>
write(12, &quot;+2+12+13444344.maitre2+<u></u>32F8908E4&quot;..., 66) = 66<br>
poll([{fd=12, events=POLLIN|POLLHUP}], 1, <a href="tel:2147483647" value="+12147483647" target="_blank">2147483647</a>) = 1 ([{fd=12, revents=POLLIN}])<br>
fcntl(12, F_GETFL)                      = 0x2 (flags O_RDWR)<br>
read(12, &quot;&quot;, 262144)                    = 0<br>
close(12)                               = 0<br>
poll([{fd=4, events=POLLIN}, {fd=5, events=POLLIN}, {fd=6, events=POLLIN}, {fd=7, events=POLLIN}, {fd=9, events=POLLIN}], 5, 1000) = 0 (Timeout)<br>
sched_yield()                           = 0<br>
poll([{fd=4, events=POLLIN}, {fd=5, events=POLLIN}, {fd=6, events=POLLIN}, {fd=7, events=POLLIN}, {fd=9, events=POLLIN}], 5, 1000) = 0 (Timeout)<br>
sched_yield()                           = 0<br>
    .<br>
    .<br>
    .<br>
<br>
<br>
<br>
I don&#39;t think the firewall is an issue since we are allowing all packets from/to nodes in the private network.<br>
<br>
<br>
Your suggestion on how to debug is much appreciated.<br>
<br>
<br>
Thanks.<span class="HOEnZb"><font color="#888888"><br>
<br>
Steven.<br>
<br>
<br>
</font></span><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Ken Nielson<br>+1 801.717.3700 office +1 801.717.3738 fax<br>1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br>
<br>
</div>