<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
The two possible cases you mentioned in your last mail, first one is
not true. I have checked and there is no problem with the nodes on
which the jobs are running. I am not too sure about the second case you
discussed. It may be switch overloading.<br>
Abhi.<br>
<br>
Axel Kohlmeyer wrote:
<blockquote cite="mid:1242249217.2954.70.camel@zero" type="cite">
  <pre wrap="">On Wed, 2009-05-13 at 17:07 -0400, Abhishek Gupta wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">Hi,
I even tried the newer version of mpich and mpiexec but still no luck.
When I kill the stuck job, I get the following error message:
    </pre>
  </blockquote>
  <pre wrap=""><!---->
abhi,

  </pre>
  <blockquote type="cite">
    <pre wrap="">------------------------------------------------
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).
    </pre>
  </blockquote>
  <pre wrap=""><!---->
never seen that, but did you check on the issues the error messages
are referring to? writing in parallel to NFS is yet another bag of
fleas. it is quite possible, that you are overloading the locking
support of your NFS server.

you may have to check carefully about the parallel i/o options
of you MPI installation, or try a different MPI package.

this definitely has nothing to do with torque, though.

cheers,
   axel.

  </pre>
  <blockquote type="cite">
    <pre wrap="">[cli_4]: aborting job:
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 4
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).
[cli_5]: aborting job:
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 5
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).
[cli_27]: aborting job:
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 27
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).
[cli_26]: aborting job:
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 26
File locking failed in ADIOI_Set_lock. If the file system is NFS, you
need to use NFS version 3, ensure that the lockd daemon is running on
all the machines, and mount the directory with the 'noac' option (no
attribute caching).
[cli_28]: aborting job:
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 28
HDF5: infinite loop closing library
HDF5: infinite loop closing library

D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD

D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD
HDF5: infinite loop closing library
HDF5: infinite loop closing library

D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD

D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD
HDF5: infinite loop closing library

D,G,S,T,D,S,F,D,F,F,AC,FD,P,FD,P,FD,P,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD,FD
mpiexec: Warning: tasks 4-5,26-28 exited with status 1.
-------------------------------------------------------

Any ideas?
Thanks,
Abhi.

    </pre>
    <blockquote type="cite">
      <pre wrap="">  
      </pre>
    </blockquote>
  </blockquote>
  <pre wrap=""><!---->
  </pre>
</blockquote>
</body>
</html>