<font face="Verdana" size="1">Hello,<br><br>I'm running Torque/Maui on a small cluster (1 headnode + 5 dual CPU nodes) running RHEL 3 and I have a few problems.<br>Apparantly
when a user submits&nbsp; a bunch of jobs in a row the&nbsp; ones submitted last
go in to Queued state and soon afterwards they disappear.
<br>When looking at these jobs with tracejob&nbsp; the have an exit_status = -2<br>Is this a setting that limits the total number of jobs submitted by one user? Or is something else wrong?<br><br>Another
problem I have is that the jobs that run fine complain via e-mail about
being unable to copy the OU and the ER file from the spool directory on
the clusternode back to the homedirectory of the user who submitted the
job.
<br>The headnode is NFS exporting the /home to all compute nodes, the headnode is dual-homed (2 NICS)<br>The /home is mounted via the internal NIC while the error states it's trying to copy the ER and OU files via the external NIC.
<br><br>Can anybody point me in the right direction?<br><br>Thanks in advance,<br>Jo</font>