is ASR (automatic system recovery)<br>enabled?<br><br><div class="gmail_quote">On Mon, Aug 16, 2010 at 10:10 PM, Brad Cavanagh <span dir="ltr">&lt;<a href="mailto:brad.cavanagh@gmail.com">brad.cavanagh@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi Jan,<br>
<br>
Random problems like this usually point to bad hardware, more than<br>
likely RAM. Do you see the same problems when you run the same job on<br>
the node manually (i.e. login to the node and run it, instead of<br>
sending it through your queue scheduler)?<br>
<br>
Brad.<br>
<div><div></div><div class="h5"><br>
On Mon, Aug 16, 2010 at 9:39 AM, Jan Dettmer &lt;<a href="mailto:jand@uvic.ca">jand@uvic.ca</a>&gt; wrote:<br>
&gt; Hi all,<br>
&gt;<br>
&gt; This may be the wrong place to post this problem but I am not sure where to<br>
&gt; start.<br>
&gt;<br>
&gt; I have a cluster of several 8 core nodes that I run torque, open MPI, and<br>
&gt; MAUI on debian. The cluster has been running flawless for several months and<br>
&gt; I usually run parallel jobs across the whole cluster. Late last week, I<br>
&gt; started having problems with one of the nodes rebooting at what seems<br>
&gt; random. This only happens when I am running a job on it. If it sits idle, it<br>
&gt; stays alive without reboots. The reboots are also completely out of the blue<br>
&gt; without any signs in the debian logs.<br>
&gt;<br>
&gt; The reboots happen after a job is started. The same code runs on the other<br>
&gt; nodes without problem for days.<br>
&gt;<br>
&gt; Has anyone experienced this before and can point me towards possible causes<br>
&gt; for this?<br>
&gt;<br>
&gt; Thanks, Jan<br>
&gt;<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br>