<div class="gmail_extra"><br><br><div class="gmail_quote">On Sun, Apr 22, 2012 at 9:31 PM, Rhys Hill <span dir="ltr">&lt;<a href="mailto:rhys.hill@adelaide.edu.au" target="_blank">rhys.hill@adelaide.edu.au</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi everyone,<br>
<br>
I recently upgraded to torque 4.0 alongside moab 7.0, mostly because we&#39;d been<br>
having some trouble with cpusets and I&#39;d hoped that the support for hwloc would<br>
resolve the problem. cpusets are now working very well, but I&#39;m having a lot of<br>
trouble with job arrays, which form a very large part of our workload.<br>
<br>
Torque 4.0.0 would regularly lock-up when processing job arrays, so I upgraded to<br>
the most recent 4.0.1 snapshot, and that behaves much better, but still seems<br>
unstable compared to 2.5.9.<br>
<br>
One concrete issue is that many of our jobs that worked fine with 2.5.9 are now<br>
stalling with 4.0.1 with the following message:<br>
<br>
&quot;Arrays may only be given array dependencies&quot;<br>
<br>
which only seems to appear in the server logs and is otherwise invisible. This<br>
was certainly never true before, and doesn&#39;t really make sense. We frequently<br>
use array-&gt;single job dependencies for scatter-gather type operations.<br>
<br>
Once the above message has been printed, the job arrays sit in a hold state forever.<br>
They can&#39;t be removed using qdel and if I try to break the hold using qrls or<br>
mjobctl, they move into the queued state, but they disappear from moab and never<br>
actually start, and still can&#39;t be removed. The only way I can get rid of them<br>
is to bring down pbs_server, which has to killed via `killall -QUIT pbs_server`<br>
since the init script cannot stop the process properly, and delete the job<br>
files manually.<br>
<br>
I&#39;m currently thinking of just reverting to the old, working version of torque,<br>
but has anyone else had trouble with job arrays and can the above problems be<br>
fixed somehow?<br>
<br>
Thanks,<br>
<br>
--------------------------------------------------------------------------------<br>
Rhys Hill,                                             Senior Research Associate<br>
Australian Centre for Visual Technologies                 University of Adelaide<br>
<br></blockquote></div><br>Rhys,<br><br>Thanks for the information. We will look at this in TORQUE 4.0. In the mean time you may want to create a ticket in bugzilla. <a href="http://www.clusterresources.com/bugzilla/">http://www.clusterresources.com/bugzilla/</a><br>
<br>Regards<br><br>Ken<br></div>