<div dir="ltr">Hello everyone.<div><br></div><div>I am having a problem with torque and i dont really know hwere to look for help:</div><div><br></div><div>i got a configuration made of 10 nodes:</div><div>1 torque/maui server</div>

<div>9 compute nodes</div><div><br></div><div>this is my nodes file:</div><div><div>[root@meta server_priv]# cat nodes </div><div>cadejos-0.cnca <span class="" style="white-space:pre">        </span>np=8 <span class="" style="white-space:pre">        </span>tesla xeon</div>

<div>cadejos-1.cnca <span class="" style="white-space:pre">        </span>np=8 <span class="" style="white-space:pre">        </span>tesla xeon</div><div>cadejos-2.cnca <span class="" style="white-space:pre">        </span>np=8<span class="" style="white-space:pre">        </span>tesla xeon</div>

<div>cadejos-3.cnca <span class="" style="white-space:pre">        </span>np=8 <span class="" style="white-space:pre">        </span>xeon</div><div>cadejos-4.cnca <span class="" style="white-space:pre">        </span>np=8 <span class="" style="white-space:pre">        </span>xeon</div>

<div>zarate-0.cnca<span class="" style="white-space:pre">        </span>np=2<span class="" style="white-space:pre">        </span>ps3</div><div>zarate-1.cnca<span class="" style="white-space:pre">        </span>np=2<span class="" style="white-space:pre">        </span>ps3</div>

<div>zarate-2.cnca<span class="" style="white-space:pre">        </span>np=2<span class="" style="white-space:pre">        </span>ps3</div><div>zarate-3.cnca<span class="" style="white-space:pre">        </span>np=2<span class="" style="white-space:pre">        </span>ps3</div>

</div><div><br></div><div><br></div><div>and my queues:</div><div><div>[root@meta server_priv]# qmgr -c &#39;p s&#39;</div><div>create queue xeon<br></div><div>set queue xeon queue_type = Execution</div><div>set queue xeon resources_default.neednodes = xeon</div>

<div>set queue xeon resources_default.nodes = 1</div><div>set queue xeon resources_default.walltime = 01:00:00</div><div>set queue xeon enabled = True</div><div>set queue xeon started = True</div><div>#<br></div><div>create queue tesla</div>

<div>set queue tesla queue_type = Execution</div><div>set queue tesla resources_default.neednodes = tesla</div><div>set queue tesla resources_default.nodes = 1</div><div>set queue tesla resources_default.walltime = 01:00:00</div>

<div>set queue tesla enabled = True</div><div>set queue tesla started = True</div><div>#<br></div><div>create queue ps3</div><div>set queue ps3 queue_type = Execution</div><div>set queue ps3 resources_default.neednodes = ps3</div>

<div>set queue ps3 resources_default.nodes = 1</div><div>set queue ps3 resources_default.walltime = 01:00:00</div><div>set queue ps3 enabled = True</div><div>set queue ps3 started = True</div><div>#<br></div><div>set server acl_hosts = meta.cnca</div>

<div>set server acl_roots = root@localhost</div><div>set server acl_roots += root@meta.cnca</div><div>set server log_events = 511</div><div>set server mail_from = adm</div><div>set server scheduler_iteration = 600</div><div>

set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div><div>set server next_job_number = 69</div></div><div><br></div><div><br></div><div>Now, im pretty sure zarate&#39;s torque version is different from cadejos version because they have different OS (fedora11-ppc and centos6-x86).</div>

<div><br></div><div>The problem is the pbs_mom at zarate nodes seems to stop suddenly without warning or error message, and while doing just nothing.</div><div><br></div><div>I can send jobs to the cadejos nodes just fine and they run either interactivly or batch but on the zarate nodes nothing runs. </div>

<div><br></div><div>Anyone has any idea on this subjetc?</div><div><br></div><div>Thanks.</div></div>