<div dir="ltr">Hi,<br>3 days ago, the controller node(node1) of our cluster was down by unknown reason, and i had to restart it. <br>The queue jobs was still hold after restart, and the running jobs also is still running. <br>
But when a job is completed that can be sure by the output files is still exist in the queue.<br>This job&#39;s state is marked &quot;E&quot;, but this state was hold to now since yesterday.<br>A error message showed &quot;<b>qdel: Request invalid for state of job MSG=invalid state for job - EXITING 3583.node1</b>&quot; when i deleted&nbsp; by using the command &quot;qdel jobid&quot;.<br>
The other problem is the output of command &quot;pbsnodes -a&quot;, the state of half cluster nodes is &quot;down,job-exclusive&quot;, but actually these nodes is not down.<br>It was useless when i modified the state of these nodes by qmgr &quot;set node nodeid state = job-exclusive&quot;, because still jobs running in these nodes.<br>
I think these two problems are related.<br>How can i do?<br>Thanks<br clear="all"><br>-- <br>Best Wishes<br>ChenWeiguang<br>
</div>