<div dir="ltr"><div><div>Oops. Almost forgot.<br><br></div>Thanks for finding that and reporting it.<br><br></div>Regards<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Oct 28, 2013 at 10:41 AM, Ezell, Matthew A. <span dir="ltr">&lt;<a href="mailto:ezellma@ornl.gov" target="_blank">ezellma@ornl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I see this message in the mom_log on my desktop where I&#39;m running<br>
pbs_sched.  I briefly looked into it.<br>
<br>
The fifo scheduler of pbs_sched has a talk_with_mom() function that<br>
contacts each pbs_mom to find out information like ncpus, arch, max_load,<br>
ideal_load, etc.  This uses the RM protocol on the RM port (the same one<br>
momctl uses). Back in 2011, commit<br>
577e8cb29263075c2d38155e8fc6686b88e0d5af changed the RM protocol, but<br>
pbs_sched didn&#39;t get the memo.  (By the way, are the PBS ERS and IDS still<br>
being updated?)  A new field was added to the &quot;header&quot; to indicate how<br>
many commands were coming across the wire.  Since pbs_sched doesn&#39;t send<br>
this, the pbs_mom reads the command as the number of commands and the<br>
first string as the command.  This happens to be &quot;ncpus&quot;, a 5-character<br>
string.  When read with disrui() instead of diswcs(), you get command #5<br>
(followed by garbage on the wire).<br>
<br>
I&#39;m not sure if the fifo scheduler actually *needs* this information from<br>
the mom, so it might be OK to just comment out the talk_to_mom() function.<br>
 If it is needed, then the RM functions in the PBS API need to be updated<br>
(and potentially some code in the fifo scheduler also).<br>
<br>
~Matt<br>
<br>
---<br>
Matt Ezell<br>
HPC Systems Administrator<br>
Oak Ridge National Laboratory<br>
<br>
<br>
<br>
<br>
On 9/5/13 7:09 PM, &quot;David Beer&quot; &lt;<a href="mailto:dbeer@adaptivecomputing.com">dbeer@adaptivecomputing.com</a>&gt; wrote:<br>
<br>
&gt;No worries, I was just curious to make sure the rest of it was typed<br>
&gt;correctly.<br>
&gt;<br>
&gt;<br>
&gt;I don&#39;t know of anything that runs momctl - that is usually a user<br>
&gt;command that has to be run by root. I&#39;m really at a loss for what might<br>
&gt;cause it to get run and even more for why it&#39;d be getting run with the<br>
&gt;wrong command.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;On Thu, Sep 5, 2013 at 4:47 PM, Kamran Khan<br>
&gt;&lt;<a href="mailto:kamran@pssclabs.com">kamran@pssclabs.com</a>&gt; wrote:<br>
&gt;<br>
&gt;Hi David,<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;Sorry, that was a typo.  I didn&#39;t paste it, typed it out.  It does say<br>
&gt;&quot;rm_request&quot;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;Where would that command &#39;5&#39; be coming from?  Is there a spot that I can<br>
&gt;check which runs momctl every 10 seconds or so?<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;Please let me know.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;Thanks.<br>
&gt;--<br>
&gt;Kamran Khan<br>
&gt;PSSC Labs<br>
&gt;HPC Software Technical Engineer<br>
&gt;<br>
&gt;<br>
&gt;________________________________________<br>
&gt;<br>
&gt;From: &quot;David Beer&quot; &lt;<a href="mailto:dbeer@adaptivecomputing.com">dbeer@adaptivecomputing.com</a>&gt;<br>
&gt;To: &quot;Torque Users Mailing List&quot; &lt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt;Sent: Thursday, September 5, 2013 2:53:13 PM<br>
&gt;Subject: Re: [torqueusers] ComputeNodes&#39; /var/log/messages flooded with<br>
&gt;&quot;unknown command 5&quot;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;Can you be sure you&#39;re pasting the exact message from the syslog? I&#39;m<br>
&gt;just suspicious because that says &quot;rpm_request&quot; when it should say<br>
&gt;&quot;rm_request.&quot; Assuming the rest of it is correct command 5 would mean<br>
&gt;someone is sending a command &#39;5&#39; via<br>
&gt; the momctl command which isn&#39;t a recognized command.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;On Thu, Sep 5, 2013 at 3:22 PM, Kamran Khan<br>
&gt;&lt;<a href="mailto:kamran@pssclabs.com">kamran@pssclabs.com</a>&gt; wrote:<br>
&gt;<br>
&gt;Hi All,<br>
&gt;<br>
&gt;I have a HeadNode and (11) ComputeNodes, all configured with Torque.<br>
&gt;<br>
&gt;On the ComputeNodes, the /var/log/messages files are being flooded every<br>
&gt;10 seconds with the following message:<br>
&gt;<br>
&gt;n001 pbs_mom: LOG_ERROR: :rpm_request, unknown command 5<br>
&gt;<br>
&gt;<br>
&gt;So far as I can tell, I am having no problems running any jobs through<br>
&gt;Torque, but this cluster is for a customer who may see the logs and start<br>
&gt;freaking out.  Is this a common error?  Is there anyway to get rid of<br>
&gt;these messages?<br>
&gt;<br>
&gt;Any help would be appreciated.<br>
&gt;<br>
&gt;Thanks.<br>
&gt;--<br>
&gt;Kamran Khan<br>
&gt;PSSC Labs<br>
&gt;HPC Software Technical Engineer<br>
&gt;<br>
&gt;_______________________________________________<br>
&gt;torqueusers mailing list<br>
&gt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;--<br>
&gt;David Beer | Senior Software Engineer<br>
&gt;Adaptive Computing<br>
&gt;<br>
&gt;<br>
&gt;_______________________________________________<br>
&gt;torqueusers mailing list<br>
&gt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;_______________________________________________<br>
&gt;torqueusers mailing list<br>
&gt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;--<br>
&gt;David Beer | Senior Software Engineer<br>
&gt;Adaptive Computing<br>
&gt;<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br><br clear="all"><br>-- <br>Ken Nielson<br>+1 801.717.3700 office +1 801.717.3738 fax<br>1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br>
<br>
</div>