Dear all<div>I have a strange problem when submitting a job on a Linux Cluster, so I will detail some information to help to identify the problem:</div><div>The Torque version on my controller node is: torque-server-2.5.7-7.el5.x86_64</div>
<div>The Torque version on my compute nodes is: torque-client-2.5.7-7.el5.x86_64</div><div>There is an ssh access without password, no iptables on both sides.</div><div>pbnodes -a shows the all available nodes on free state</div>
<div>This is the part of error in server_log:</div><div><div>02/15/2012 11:34:19;0008;PBS_Server;Job;<a href="http://220.ce.seua-cluster.grid.am">220.ce.seua-cluster.grid.am</a>;send of job to <a href="http://wn1.seua-cluster.grid.am">wn1.seua-cluster.grid.am</a> failed error = 15002</div>
<div>02/15/2012 11:34:19;0001;PBS_Server;Svr;PBS_Server;LOG_ERROR::Undefined attribute  (15002) in send_job, child failed in previous commit request for job <a href="http://220.ce.seua-cluster.grid.am">220.ce.seua-cluster.grid.am</a></div>
<div>02/15/2012 11:34:19;0008;PBS_Server;Job;<a href="http://220.ce.seua-cluster.grid.am">220.ce.seua-cluster.grid.am</a>;unable to run job, MOM rejected/rc=1</div><div>02/15/2012 11:34:19;0080;PBS_Server;Req;req_reject;Reject reply code=15043(Execution server rejected request MSG=cannot send job to mom, state=PRERUN), aux=0, type=RunJob, from <a href="mailto:root@ce.seua-cluster.grid.am">root@ce.seua-cluster.grid.am</a></div>
<div>02/15/2012 11:34:19;0040;PBS_Server;Svr;<a href="http://ce.seua-cluster.grid.am">ce.seua-cluster.grid.am</a>;Scheduler was sent the command new</div></div><div>This is the message output from checkjob command:</div><div>
<div>checkjob 220</div><div><br></div><div><br></div><div>checking job 220</div><div><br></div><div>State: Idle</div><div>WallTime: 00:00:00 of 00:01:00</div><div>SubmitTime: Wed Feb 15 09:58:51</div><div>  (Time Queued  Total: 4:49:09  Eligible: 00:00:00)</div>
<div><br></div><div>Total Tasks: 1</div><div><br></div><div>Req[0]  TaskCount: 1  Partition: ALL</div><div>Network: [NONE]  Memory &gt;= 0  Disk &gt;= 0  Swap &gt;= 0</div><div>Opsys: [NONE]  Arch: [NONE]  Features: [NONE]</div>
<div><br></div><div><br></div><div>IWD: [NONE]  Executable:  [NONE]</div><div>Bypass: 0  StartCount: 25</div><div>PartitionMask: [ALL]</div><div>Flags:       RESTARTABLE</div><div><br></div><div>Holds:    Batch  </div><div>
Messages:  cannot start job - RM failure, rc: 15043, msg: &#39;Execution server rejected request MSG=cannot send job to mom, state=PRERUN&#39;</div><div>PE:  1.00  StartPriority:  194</div><div>cannot select job 220 for partition DEFAULT (job hold active)</div>
</div><div><br></div><div>I would appreciate any help. Thanks in advance.</div><div><br></div><div>Regards</div>