More troubles and headaches about this setup...I&#39;m having trouble tracking down two issues that have been keeping our scheduler from working properly.<br><br>First off - our Maui connectivity to the Torque scheduler is intermittent. Sometimes, showq works instantly, and others it either takes a long time, or times out with the following error:<br>
<br><div style="margin-left: 40px;">ERROR:&nbsp;&nbsp;&nbsp; lost connection to server<br>ERROR:&nbsp;&nbsp;&nbsp; cannot request service (status)<br></div><br>I have tried to figure out where this problem lies, but I have been unsuccessful in doing so. I have checked that the time on all the nodes are the same (to within a matter of seconds). During this time, both pbs_server and maui are started. pbs_server seems to be working normally, since Torque related actions such as qstat work as expected.<br>
<br><br><br>Secondly - jobs seem to be marked as Blocked instead of Idle, even though there are sufficient resources available. Occasionally, the error refers to insufficient resources available (even though there are plenty of free compute nodes), and others have the following error under checkjob:<br>
<br><div style="margin-left: 40px;">Messages:&nbsp; cannot start job - RM failure, rc: 15031, msg: &#39;Premature end of message&#39;<br></div><br><br>We have a number of jobs in the queue that have been running for a number of weeks, so clearing the queue isn&#39;t really an option.<br>
<br>I had thought about closing the queue to prevent any new submissions, and then waiting for all the current jobs to finish. Once that was done, we could clean out the current installs of Maui and Torque and start fresh. We&#39;d be looking at quite a bit of downtime in the meantime though, so any other solutions would be preferable.<br>
<br>Cheers,<br>-Nicholas Geraedts<br><br><br>&nbsp;