<div dir="ltr">Ricardo,<div><br></div><div>I would try to track this down in two ways:</div><div><br></div><div>1. Make sure that ulimit -c is unlimited when the mom is launched. Having a lower limit for ulimit -c can prevent core files from being recorded.</div>
<div>2. If this fails, you could attach to the mom&#39;s process in gdb (or something else if preferred). Simply attach and let it run, and then when the process is no longer responsive look at gdb to see if it crashed or why it is unresponsive. The gdb prompt could be kept running in a screen session or something that will just stay there indefinitely.</div>
</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Mar 21, 2014 at 11:41 AM, Ricardo Román Brenes <span dir="ltr">&lt;<a href="mailto:roman.ricardo@gmail.com" target="_blank">roman.ricardo@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hello everyone.<div><br></div><div>I am having a problem with torque and i dont really know hwere to look for help:</div>
<div><br></div><div>i got a configuration made of 10 nodes:</div><div>1 torque/maui server</div>

<div>9 compute nodes</div><div><br></div><div>this is my nodes file:</div><div><div>[root@meta server_priv]# cat nodes </div><div>cadejos-0.cnca <span style="white-space:pre-wrap">        </span>np=8 <span style="white-space:pre-wrap">        </span>tesla xeon</div>


<div>cadejos-1.cnca <span style="white-space:pre-wrap">        </span>np=8 <span style="white-space:pre-wrap">        </span>tesla xeon</div><div>cadejos-2.cnca <span style="white-space:pre-wrap">        </span>np=8<span style="white-space:pre-wrap">        </span>tesla xeon</div>


<div>cadejos-3.cnca <span style="white-space:pre-wrap">        </span>np=8 <span style="white-space:pre-wrap">        </span>xeon</div><div>cadejos-4.cnca <span style="white-space:pre-wrap">        </span>np=8 <span style="white-space:pre-wrap">        </span>xeon</div>


<div>zarate-0.cnca<span style="white-space:pre-wrap">        </span>np=2<span style="white-space:pre-wrap">        </span>ps3</div><div>zarate-1.cnca<span style="white-space:pre-wrap">        </span>np=2<span style="white-space:pre-wrap">        </span>ps3</div>


<div>zarate-2.cnca<span style="white-space:pre-wrap">        </span>np=2<span style="white-space:pre-wrap">        </span>ps3</div><div>zarate-3.cnca<span style="white-space:pre-wrap">        </span>np=2<span style="white-space:pre-wrap">        </span>ps3</div>


</div><div><br></div><div><br></div><div>and my queues:</div><div><div>[root@meta server_priv]# qmgr -c &#39;p s&#39;</div><div>create queue xeon<br></div><div>set queue xeon queue_type = Execution</div><div>set queue xeon resources_default.neednodes = xeon</div>


<div>set queue xeon resources_default.nodes = 1</div><div>set queue xeon resources_default.walltime = 01:00:00</div><div>set queue xeon enabled = True</div><div>set queue xeon started = True</div><div>#<br></div><div>create queue tesla</div>


<div>set queue tesla queue_type = Execution</div><div>set queue tesla resources_default.neednodes = tesla</div><div>set queue tesla resources_default.nodes = 1</div><div>set queue tesla resources_default.walltime = 01:00:00</div>


<div>set queue tesla enabled = True</div><div>set queue tesla started = True</div><div>#<br></div><div>create queue ps3</div><div>set queue ps3 queue_type = Execution</div><div>set queue ps3 resources_default.neednodes = ps3</div>


<div>set queue ps3 resources_default.nodes = 1</div><div>set queue ps3 resources_default.walltime = 01:00:00</div><div>set queue ps3 enabled = True</div><div>set queue ps3 started = True</div><div>#<br></div><div>set server acl_hosts = meta.cnca</div>


<div>set server acl_roots = root@localhost</div><div>set server acl_roots += root@meta.cnca</div><div>set server log_events = 511</div><div>set server mail_from = adm</div><div>set server scheduler_iteration = 600</div><div>


set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div><div>set server next_job_number = 69</div></div><div><br></div><div><br></div><div>Now, im pretty sure zarate&#39;s torque version is different from cadejos version because they have different OS (fedora11-ppc and centos6-x86).</div>


<div><br></div><div>The problem is the pbs_mom at zarate nodes seems to stop suddenly without warning or error message, and while doing just nothing.</div><div><br></div><div>I can send jobs to the cadejos nodes just fine and they run either interactivly or batch but on the zarate nodes nothing runs. </div>


<div><br></div><div>Anyone has any idea on this subjetc?</div><div><br></div><div>Thanks.</div></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>