hi,<br>we have cluster where os is rhel 5.2, pbs version is : 2.5.8 and maui version is : 3.2.6p21 and 256 nodes.<br>some times the job submitted by the user  goes in the deferred state instead of going for execution or in the queue. Following error message is show when checkjob command is fired after performing releasehold &lt;job id&gt;, then it goes for either execution or in the queue from differed state. <font face="arial,helvetica,sans-serif">It says connection to mom time out, but node is very much online.</font><br>
<br>error :<br>##################################################<br>checking job 8210<br><br>State: Idle  EState: Deferred<br>Creds:  user:john  group:chem  account:dadopr  class:chemo  qos:DEFAULT<br>WallTime: 00:00:00 of 1:00:00<br>
SubmitTime: Thu Nov  1 15:15:13<br>  (Time Queued  Total: 00:29:00  Eligible: 00:00:02)<br><br>Total Tasks: 1<br><br>Req[0]  TaskCount: 1  Partition: par1<br>Network: [NONE]  Memory &gt;= 0  Disk &gt;= 0  Swap &gt;= 0<br>
Opsys: [NONE]  Arch: [NONE]  Features: [NONE]<br><br><br>IWD: [NONE]  Executable:  [NONE]<br>Bypass: 0  StartCount: 1<br>PartitionMask: [ALL]<br>Flags:       RESTARTABLE<br><br>job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, msg: &#39;Execution server rejected request MSG=connection to mom timed out&#39;)<br>
Holds:    Defer  (hold reason:  RMFailure)<br>PE:  1.00  StartPriority:  1<br>cannot select job 8210 for partition par1 (job hold active)<br><br>cannot select job 8210 for partition par2 (job hold active)<br>#########################################################################<br>