<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
Hi,<br>
I even tried the newer version of mpich and mpiexec but still no luck.
When I kill the stuck job, I get the following error message:<br>
------------------------------------------------<br>
<small>File locking failed in ADIOI_Set_lock. If the file system is
NFS, you need to use NFS version 3, ensure that the lockd daemon is
running on all the machines, and mount the directory with the 'noac'
option (no attribute caching).<br>
[cli_4]: aborting job:<br>
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 4<br>
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).<br>
[cli_5]: aborting job:<br>
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 5<br>
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).<br>
[cli_27]: aborting job:<br>
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 27<br>
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).<br>
[cli_26]: aborting job:<br>
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 26<br>
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).<br>
[cli_28]: aborting job:<br>
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 28<br>
HDF5: infinite loop closing library<br>
HDF5: infinite loop closing library<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD<br>
HDF5: infinite loop closing library<br>
HDF5: infinite loop closing library<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD<br>
HDF5: infinite loop closing library<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD<br>
mpiexec: Warning: tasks 4-5,26-28 exited with status 1.</small><br>
-------------------------------------------------------<br>
<br>
Any ideas?<br>
Thanks,<br>
Abhi.<br>
<br>
Axel Kohlmeyer wrote:
<blockquote cite="mid:1242237225.2998.90.camel@zero" type="cite">
  <pre wrap="">On Wed, 2009-05-13 at 12:22 -0400, Abhishek Gupta wrote:

abhi,

  </pre>
  <blockquote type="cite">
    <pre wrap="">Hi Troy,
I was able to fix the error message I mailed in my last mail, but the
problem I explained in the beginning still exist, i.e. Job runs for a
while and then stuck forever. Like I said it runs fine till node
value=20 but beyond that it shows such behavior.
Is there anything else I can try?
    </pre>
  </blockquote>
  <pre wrap=""><!---->
if the job runs for a bit and then stops, the problem is most likely
to be found in the MPI library or communication hardware. once a 
job is started, torque has very little to do with what happens until
the job is finished. if this happens only with a larger number of nodes,
it can have two reasons: a) a specific node has a problem and that
does not get allocated for smaller jobs (assuming that nobody else
is running on the machine) or b) there is an overload problem due to
excessive communication. particularly some gigE switches crap out
at too high load in uncontrolled ways and many MPI implementations 
have no provisions for that kind of behavior (corrupted data).

HTH,
   axel.


  </pre>
  <blockquote type="cite">
    <pre wrap="">Thanks,
Abhi.


Troy Baer wrote: 
    </pre>
    <blockquote type="cite">
      <pre wrap="">On Tue, 2009-05-12 at 17:03 -0400, Abhishek Gupta wrote:
  
      </pre>
      <blockquote type="cite">
        <pre wrap="">It is giving me an error:
mpiexec: Error: get_hosts: pbs_statjob returned neither "ncpus" nor "nodect"

Any suggestion?
    
        </pre>
      </blockquote>
      <pre wrap="">What does your job script look like?  How are you requesting nodes
and/or processors?

        --Troy
  
      </pre>
    </blockquote>
    <pre wrap="">_______________________________________________
torqueusers mailing list
<a class="moz-txt-link-abbreviated" href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a class="moz-txt-link-freetext" href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
    </pre>
  </blockquote>
  <pre wrap=""><!---->
  </pre>
</blockquote>
</body>
</html>