<div dir="ltr"><div><div><div>Gus,<br><br></div>When there are multiple mom daemons but some are owned by the user, this is because there is a job on the node. pbs_mom forks to become the job and sets its privileges as the user. Before doing this, it stops listening on all ports and won&#39;t interfere with network activity for the main mom. <br>
<br></div>As far as the privileges go, I don&#39;t believe that changing them will have any effect - disclaimer: I have never tried - because pbs_mom checks to verify that it is root before attempting to do anything of importance. I&#39;d expect that these multiple daemons are simply forked jobs. I&#39;m not sure if the same happened during your original problem, although I&#39;d suspect its different.<br>
<br></div>Unfortunately, the tracejob output doesn&#39;t appear to shed any light on what exactly happened. I don&#39;t see anything really out of the ordinary there.<br><br>David<br></div><div class="gmail_extra"><br><br>
<div class="gmail_quote">On Tue, Oct 15, 2013 at 1:18 PM, Gus Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu" target="_blank">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Thank you, David!<br>
<br>
The tracejob output for job 229 is enclosed.<br>
However, maybe there is more relevant<br>
information in what I found later.<br>
<br>
The jobs were stuck again in Q state.<br>
The same reason as before: one node has triple pbs_mom<br>
daemons running again.<br>
See:<br>
<br>
[root@master ~]# ssh node33 &#39;service pbs_mom status&#39;<br>
pbs_mom (pid 12971 12969 2569) is running...<br>
<br>
***<br>
<br>
Awkwardly, a regular user owns two of those daemons.<br>
Moreover, the PPID of those rogue pbs_mom daemons is the<br>
legitimate daemon.<br>
See:<br>
<br>
[root@node33 ~]# ps -ef |grep pbs_mom<br>
root      2569     1  0 Oct11 ?        00:14:42<br>
/opt/torque/active/sbin/pbs_mom -q -d /opt/torque/active<br>
ltmurray 12969  2569  0 Oct14 ?        00:00:00<br>
/opt/torque/active/sbin/pbs_mom -q -d /opt/torque/active<br>
ltmurray 12971  2569  0 Oct14 ?        00:00:00<br>
/opt/torque/active/sbin/pbs_mom -q -d /opt/torque/active<br>
root     13206 13017  0 13:56 pts/0    00:00:00 grep pbs_mom<br>
<br>
Note also the &quot;-q&quot; flag, which I didn&#39;t expect.<br>
<br>
***<br>
<br>
This user is launching jobs with dependencies (-W),<br>
in case this matters.<br>
His job scripts look legit, at first sight at least.<br>
<br>
***<br>
<br>
Here are my guesses for possible causes of<br>
multiple pbs_mom daemons.<br>
However, you may have a better insight, of course:<br>
<br>
1) Permissions:<br>
<br>
Permissions in $TORQUE/sbin are 755 (including pbs_mom).<br>
Should I remove execute permissions for regular users<br>
(754, 750, 700 ?), or would this break something else in Torque?<br>
<br>
2) The inid.d/pbs_mom script:<br>
<br>
My init.d/pbs_mom script (Red Hat/CentOS style),<br>
was copied/edited from the Torque 4.2.5 &quot;contrib/<a href="http://pbs_mom.in" target="_blank">pbs_mom.in</a>&quot;.<br>
It has these (original) lines:<br>
<br>
*************************<br>
if [ -z &quot;$previous&quot; ];then<br>
    # being run manually, don&#39;t disturb jobs<br>
    args=&quot;$args -p&quot;<br>
else<br>
    args=&quot;$args -q&quot;<br>
fi<br>
**************************<br>
<br>
What does the  &quot;$previous&quot; variable stand for?<br>
There are NO further references to &quot;$previous&quot;<br>
inside the init/pbs_mom script, so apparently it is undefined.<br>
Note that the variable &quot;args&quot; is not initialized either.<br>
<br>
In addition, my pbs_mom daemons end up running with the &quot;-q&quot; switch,<br>
which is not what I expected to happen.<br>
According to the pbs_mom man page,<br>
the default after Torque version 2.4.0 is &quot;-p&quot;.<br>
<br>
Is something amiss, or is the man page wrong?<br>
Is the contrib/init.d/<a href="http://pbs_mom.in" target="_blank">pbs_mom.in</a> script buggy perhaps?<br>
<br>
On the other hand,<br>
in an older cluster (Torque 2.4.11) I had something different<br>
(and working correctly):<br>
<br>
****************************<br>
args=&quot;&quot;<br>
if [ -z &quot;$previous&quot; ];then<br>
    # being run manually, don&#39;t disturb jobs<br>
    args=&quot;-p&quot;<br>
fi<br>
***********************************<br>
<br>
Note that here &quot;args&quot; is initialized,<br>
and &quot;-q&quot; is not even in the script.<br>
<br>
Of course, I could use the second form in the init.d/pbs_mom script,<br>
to force launching pbs_mom with &quot;-p&quot;.<br>
However, I wonder if it would fix the problem of multiple pbs_mom<br>
daemons.<br>
<div class="im"><br>
Thank you for your help,<br>
Gus Correa<br>
<br>
<br>
<br>
</div>****** tracejob output *********************************<br>
<br>
<br>
[root@master ~]# tracejob -n 7 229<br>
/opt/torque/4.2.5/gnu-4.4.7/server_priv/accounting/20131015: No such<br>
file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/server_logs/20131015: No matching job<br>
records located<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131015: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131015: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/server_priv/accounting/20131014: No matching<br>
job records located<br>
/opt/torque/4.2.5/gnu-4.4.7/server_logs/20131014: No matching job<br>
records located<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131014: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131014: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/server_priv/accounting/20131013: No matching<br>
job records located<br>
/opt/torque/4.2.5/gnu-4.4.7/server_logs/20131013: No matching job<br>
records located<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131013: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131013: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/server_priv/accounting/20131012: No matching<br>
job records located<br>
/opt/torque/4.2.5/gnu-4.4.7/server_logs/20131012: No matching job<br>
records located<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131012: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131012: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131011: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131011: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/server_priv/accounting/20131010: No matching<br>
job records located<br>
/opt/torque/4.2.5/gnu-4.4.7/server_logs/20131010: No matching job<br>
records located<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131010: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131010: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/server_priv/accounting/20131009: No matching<br>
job records located<br>
/opt/torque/4.2.5/gnu-4.4.7/server_logs/20131009: No matching job<br>
records located<br>
/opt/torque/4.2.5/gnu-4.4.7/mom_logs/20131009: No such file or directory<br>
/opt/torque/4.2.5/gnu-4.4.7/sched_logs/20131009: No such file or directory<br>
<br>
Job: 229.master<br>
<br>
10/11/2013 12:40:40  S    enqueuing into production, state 1 hop 1<br>
10/11/2013 12:40:40  A    queue=production<br>
10/11/2013 12:40:41  S    Job Run at request of maui@master<br>
10/11/2013 12:41:36  S    Job Run at request of root@master<br>
10/11/2013 12:41:37  A    user=gus group=gus jobname=STDIN<br>
queue=production ctime=1381509640 qtime=1381509640 etime=1381509640<br>
start=1381509697 owner=gus@master<br>
<br>
exec_host=node01/0+node01/1+node01/2+node01/3+node01/4+node01/5+node01/6+node01/7+node01/8+node01/9+node01/10+node01/11+node01/12+node01/13+node01/14+node01/15+node01/16+node01/17+node01/18+node01/19+node01/20+node01/21+node01/22+node01/23+node01/24+node01/25+node01/26+node01/27+node01/28+node01/29+node01/30+node01/31<br>

                           Resource_List.neednodes=1:ppn=32<br>
Resource_List.nodect=1 Resource_List.nodes=1:ppn=32<br>
Resource_List.walltime=12:00:00<br>
10/11/2013 12:41:50  S    Exit_status=265 resources_used.cput=00:00:00<br>
resources_used.mem=1908kb resources_used.vmem=112864kb<br>
resources_used.walltime=00:00:13 Error_Path=/dev/pts/0<br>
Output_Path=/dev/pts/0<br>
10/11/2013 12:41:50  S    on_job_exit valid pjob: 229.master (substate=50)<br>
10/11/2013 12:41:50  A    user=gus group=gus jobname=STDIN<br>
queue=production ctime=1381509640 qtime=1381509640 etime=1381509640<br>
start=1381509697 owner=gus@master<br>
<br>
exec_host=node01/0+node01/1+node01/2+node01/3+node01/4+node01/5+node01/6+node01/7+node01/8+node01/9+node01/10+node01/11+node01/12+node01/13+node01/14+node01/15+node01/16+node01/17+node01/18+node01/19+node01/20+node01/21+node01/22+node01/23+node01/24+node01/25+node01/26+node01/27+node01/28+node01/29+node01/30+node01/31<br>

                           Resource_List.neednodes=1:ppn=32<br>
Resource_List.nodect=1 Resource_List.nodes=1:ppn=32<br>
Resource_List.walltime=12:00:00 session=4700 end=1381509710<br>
Exit_status=265 resources_used.cput=00:00:00 resources_used.mem=1908kb<br>
resources_used.vmem=112864kb<br>
                           resources_used.walltime=00:00:13<br>
Error_Path=/dev/pts/0 Output_Path=/dev/pts/0<br>
10/11/2013 12:42:23  S    send of job to node34 failed error = 15033<br>
10/11/2013 12:42:23  S    unable to run job, MOM rejected/rc=-1<br>
10/11/2013 12:42:23  S    unable to run job, send to MOM &#39;168427810&#39; failed<br>
10/11/2013 12:42:24  S    Job Run at request of maui@master<br>
10/11/2013 12:42:24  S    Exit_status=-1 resources_used.cput=00:00:00<br>
resources_used.mem=0kb resources_used.vmem=0kb<br>
resources_used.walltime=00:00:00 Error_Path=/dev/pts/0<br>
Output_Path=/dev/pts/0<br>
10/11/2013 12:42:24  S    on_job_exit valid pjob: 229.master (substate=50)<br>
10/11/2013 12:42:24  A    user=gus group=gus jobname=STDIN<br>
queue=production ctime=1381509640 qtime=1381509640 etime=1381509640<br>
start=1381509744 owner=gus@master<br>
<br>
exec_host=node32/0+node32/1+node32/2+node32/3+node32/4+node32/5+node32/6+node32/7+node32/8+node32/9+node32/10+node32/11+node32/12+node32/13+node32/14+node32/15+node32/16+node32/17+node32/18+node32/19+node32/20+node32/21+node32/22+node32/23+node32/24+node32/25+node32/26+node32/27+node32/28+node32/29+node32/30+node32/31<br>

                           Resource_List.neednodes=1:ppn=32<br>
Resource_List.nodect=1 Resource_List.nodes=1:ppn=32<br>
Resource_List.walltime=12:00:00<br>
10/11/2013 12:42:24  A    user=gus group=gus jobname=STDIN<br>
queue=production ctime=1381509640 qtime=1381509640 etime=1381509640<br>
start=1381509744 owner=gus@master<br>
<br>
exec_host=node32/0+node32/1+node32/2+node32/3+node32/4+node32/5+node32/6+node32/7+node32/8+node32/9+node32/10+node32/11+node32/12+node32/13+node32/14+node32/15+node32/16+node32/17+node32/18+node32/19+node32/20+node32/21+node32/22+node32/23+node32/24+node32/25+node32/26+node32/27+node32/28+node32/29+node32/30+node32/31<br>

                           Resource_List.neednodes=1:ppn=32<br>
Resource_List.nodect=1 Resource_List.nodes=1:ppn=32<br>
Resource_List.walltime=12:00:00 session=0 end=1381509744 Exit_status=-1<br>
resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb<br>
                           resources_used.walltime=00:00:00<br>
Error_Path=/dev/pts/0 Output_Path=/dev/pts/0<br>
10/11/2013 14:40:48  S    Request invalid for state of job COMPLETE<br>
10/11/2013 14:41:26  S    purging job 229.master without checking MOM<br>
10/11/2013 14:41:26  S    dequeuing from production, state COMPLETE<br>
10/11/2013 14:44:48  S    Unknown Job Id Error<br>
10/11/2013 15:03:54  S    Unknown Job Id Error<br>
<br>
***************************************************************<br>
<div class="im"><br>
<br>
<br>
<br>
On 10/14/2013 11:49 AM, David Beer wrote:<br>
&gt; Gus,<br>
&gt;<br>
&gt; I would try to qterm the server and then restart it without editing the<br>
&gt; nodes file to see if that clears it. My guess is it will. It might be<br>
&gt; interesting to see a tracejob output for this stuck job.<br>
&gt;<br>
&gt; David<br>
&gt;<br>
&gt;<br>
&gt; On Fri, Oct 11, 2013 at 5:10 PM, Gus Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a><br>
</div><div><div class="h5">&gt; &lt;mailto:<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;     Thank you David<br>
&gt;<br>
&gt;     No, I am not moving jobs to another server.<br>
&gt;     We have two other clusters running Torque 2.4.11 and Maui<br>
&gt;     but they are separate.<br>
&gt;<br>
&gt;     I think I found the reason for most of this trouble.<br>
&gt;     To my surprise, two nodes were running triplicate pbs_mom daemons.<br>
&gt;     I don&#39;t know how this funny situation came to be,<br>
&gt;     probably during my attempts to fix-it-while-in-operation.<br>
&gt;     This was totally unintended of course (ie. they&#39;re not multi-mom nodes).<br>
&gt;     However, this seems to have made the server veeery confused.<br>
&gt;<br>
&gt;     I rebooted the two nodes (hard reboot was needed).<br>
&gt;     After that my test jobs are running, not stuck in Q state.<br>
&gt;<br>
&gt;     However, the server has a sticky record of a zombie<br>
&gt;     job in one of those nodes that doesn&#39;t want to go away.<br>
&gt;     The job is not even in the queue anymore.<br>
&gt;     I purged it with qdel.<br>
&gt;     Momctl doesn&#39;t show any job on that node (see below).<br>
&gt;     However, the server continues to show it in that node record,<br>
&gt;     in the output of pbsnodes.<br>
&gt;     See below, please.<br>
&gt;<br>
&gt;     I put that node offline for now.<br>
&gt;     I tried to clean up that sticky job with<br>
&gt;     qdel -p and qdel -c to no avail.<br>
&gt;     I rebooted the node, tried pbsnodes -r node34, etc, nothing worked.<br>
&gt;<br>
&gt;     I am about to remove the node from the nodes file,<br>
&gt;     restart the server, then insert the node in the nodes file again,<br>
&gt;     and restart the server again, as a brute-force attempt to<br>
&gt;     make the server &quot;forget&quot; about that sticky job.<br>
&gt;<br>
&gt;     Is there a simple/better way to get rid of that sticky job?<br>
&gt;<br>
&gt;     I enclose below  how the server shows the node, etc.<br>
&gt;<br>
&gt;     Thank you for your help,<br>
&gt;     Gus Correa<br>
&gt;<br>
&gt;     *********************************************************<br>
&gt;     # pbsnodes node34<br>
&gt;     node34<br>
&gt;            state = offline<br>
&gt;            np = 32<br>
&gt;            properties = MHz2300,prod<br>
&gt;            ntype = cluster<br>
&gt;            jobs =<br>
&gt;     0/229.master,1/229.master,2/229.master,3/229.master,4/229.master,5/229.master,6/229.master,7/229.master,8/229.master,9/229.master,10/229.master,11/229.master,12/229.master,13/229.master,14/229.master,15/229.master,16/229.master,17/229.master,18/229.master,19/229.master,20/229.master,21/229.master,22/229.master,23/229.master,24/229.master,25/229.master,26/229.master,27/229.master,28/229.master,29/229.master,30/229.master,31/229.master<br>

&gt;            status =<br>
&gt;     rectime=1381531868,varattr=,jobs=,state=free,netload=1523770,gres=,loadave=0.04,ncpus=32,physmem=132137996kb,availmem=146532668kb,totmem=147513348kb,idletime=5446,nusers=0,nsessions=0,uname=Linux<br>
&gt;     node34 2.6.32-358.2.1.el6.x86_64 #1 SMP Wed Mar 13 00:26:49 UTC 2013<br>
&gt;     x86_64,opsys=linux<br>
&gt;            mom_service_port = 15002<br>
&gt;            mom_manager_port = 15003<br>
&gt;<br>
&gt;     ************************************************<br>
&gt;<br>
&gt;     [root@node34 ~]# /opt/torque/active/sbin/momctl -d 3<br>
&gt;<br>
&gt;     Host: node34/node34   Version: 4.2.5   PID: 2528<br>
</div></div>&gt;     Server[0]: master (<a href="http://10.10.1.100:15001" target="_blank">10.10.1.100:15001</a> &lt;<a href="http://10.10.1.100:15001" target="_blank">http://10.10.1.100:15001</a>&gt;)<br>
<div class="im">&gt;         Last Msg From Server:   6409 seconds (CLUSTER_ADDRS)<br>
&gt;         Last Msg To Server:     6439 seconds<br>
&gt;     HomeDirectory:          /opt/torque/active/mom_priv<br>
&gt;     stdout/stderr spool directory: &#39;/opt/torque/active/spool/&#39;<br>
&gt;     (3092039blocks available)<br>
&gt;     NOTE:  syslog enabled<br>
&gt;     MOM active:             6409 seconds<br>
&gt;     Check Poll Time:        45 seconds<br>
&gt;     Server Update Interval: 45 seconds<br>
&gt;     LogLevel:               0 (use SIGUSR1/SIGUSR2 to adjust)<br>
&gt;     Communication Model:    TCP<br>
&gt;     MemLocked:              TRUE  (mlock)<br>
&gt;     TCP Timeout:            60 seconds<br>
&gt;     Prolog:                 /opt/torque/active/mom_priv/prologue (disabled)<br>
&gt;     Alarm Time:             0 of 10 seconds<br>
&gt;     Trusted Client List:<br>
</div>&gt;     <a href="http://10.10.1.1:15003" target="_blank">10.10.1.1:15003</a> &lt;<a href="http://10.10.1.1:15003" target="_blank">http://10.10.1.1:15003</a>&gt;,<a href="http://10.10.1.2:15003" target="_blank">10.10.1.2:15003</a><br>

&gt;     &lt;<a href="http://10.10.1.2:15003" target="_blank">http://10.10.1.2:15003</a>&gt;,<a href="http://10.10.1.3:15003" target="_blank">10.10.1.3:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.3:15003" target="_blank">http://10.10.1.3:15003</a>&gt;,<a href="http://10.10.1.4:15003" target="_blank">10.10.1.4:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.4:15003" target="_blank">http://10.10.1.4:15003</a>&gt;,<a href="http://10.10.1.5:15003" target="_blank">10.10.1.5:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.5:15003" target="_blank">http://10.10.1.5:15003</a>&gt;,<a href="http://10.10.1.6:15003" target="_blank">10.10.1.6:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.6:15003" target="_blank">http://10.10.1.6:15003</a>&gt;,<a href="http://10.10.1.7:15003" target="_blank">10.10.1.7:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.7:15003" target="_blank">http://10.10.1.7:15003</a>&gt;,<a href="http://10.10.1.8:15003" target="_blank">10.10.1.8:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.8:15003" target="_blank">http://10.10.1.8:15003</a>&gt;,<a href="http://10.10.1.9:15003" target="_blank">10.10.1.9:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.9:15003" target="_blank">http://10.10.1.9:15003</a>&gt;,<a href="http://10.10.1.10:15003" target="_blank">10.10.1.10:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.10:15003" target="_blank">http://10.10.1.10:15003</a>&gt;,<a href="http://10.10.1.11:15003" target="_blank">10.10.1.11:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.11:15003" target="_blank">http://10.10.1.11:15003</a>&gt;,<a href="http://10.10.1.12:15003" target="_blank">10.10.1.12:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.12:15003" target="_blank">http://10.10.1.12:15003</a>&gt;,<a href="http://10.10.1.13:15003" target="_blank">10.10.1.13:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.13:15003" target="_blank">http://10.10.1.13:15003</a>&gt;,<a href="http://10.10.1.14:15003" target="_blank">10.10.1.14:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.14:15003" target="_blank">http://10.10.1.14:15003</a>&gt;,<a href="http://10.10.1.15:15003" target="_blank">10.10.1.15:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.15:15003" target="_blank">http://10.10.1.15:15003</a>&gt;,<a href="http://10.10.1.16:15003" target="_blank">10.10.1.16:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.16:15003" target="_blank">http://10.10.1.16:15003</a>&gt;,<a href="http://10.10.1.17:15003" target="_blank">10.10.1.17:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.17:15003" target="_blank">http://10.10.1.17:15003</a>&gt;,<a href="http://10.10.1.18:15003" target="_blank">10.10.1.18:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.18:15003" target="_blank">http://10.10.1.18:15003</a>&gt;,<a href="http://10.10.1.19:15003" target="_blank">10.10.1.19:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.19:15003" target="_blank">http://10.10.1.19:15003</a>&gt;,<a href="http://10.10.1.20:15003" target="_blank">10.10.1.20:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.20:15003" target="_blank">http://10.10.1.20:15003</a>&gt;,<a href="http://10.10.1.21:15003" target="_blank">10.10.1.21:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.21:15003" target="_blank">http://10.10.1.21:15003</a>&gt;,<a href="http://10.10.1.22:15003" target="_blank">10.10.1.22:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.22:15003" target="_blank">http://10.10.1.22:15003</a>&gt;,<a href="http://10.10.1.23:15003" target="_blank">10.10.1.23:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.23:15003" target="_blank">http://10.10.1.23:15003</a>&gt;,<a href="http://10.10.1.24:15003" target="_blank">10.10.1.24:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.24:15003" target="_blank">http://10.10.1.24:15003</a>&gt;,<a href="http://10.10.1.25:15003" target="_blank">10.10.1.25:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.25:15003" target="_blank">http://10.10.1.25:15003</a>&gt;,<a href="http://10.10.1.26:15003" target="_blank">10.10.1.26:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.26:15003" target="_blank">http://10.10.1.26:15003</a>&gt;,<a href="http://10.10.1.27:15003" target="_blank">10.10.1.27:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.27:15003" target="_blank">http://10.10.1.27:15003</a>&gt;,<a href="http://10.10.1.28:15003" target="_blank">10.10.1.28:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.28:15003" target="_blank">http://10.10.1.28:15003</a>&gt;,<a href="http://10.10.1.29:15003" target="_blank">10.10.1.29:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.29:15003" target="_blank">http://10.10.1.29:15003</a>&gt;,<a href="http://10.10.1.30:15003" target="_blank">10.10.1.30:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.30:15003" target="_blank">http://10.10.1.30:15003</a>&gt;,<a href="http://10.10.1.31:15003" target="_blank">10.10.1.31:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.31:15003" target="_blank">http://10.10.1.31:15003</a>&gt;,<a href="http://10.10.1.32:15003" target="_blank">10.10.1.32:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.32:15003" target="_blank">http://10.10.1.32:15003</a>&gt;,<a href="http://10.10.1.33:15003" target="_blank">10.10.1.33:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.33:15003" target="_blank">http://10.10.1.33:15003</a>&gt;,<a href="http://10.10.1.34:0" target="_blank">10.10.1.34:0</a><br>
&gt;     &lt;<a href="http://10.10.1.34:0" target="_blank">http://10.10.1.34:0</a>&gt;,<a href="http://10.10.1.34:15003" target="_blank">10.10.1.34:15003</a><br>
&gt;     &lt;<a href="http://10.10.1.34:15003" target="_blank">http://10.10.1.34:15003</a>&gt;,<a href="http://10.10.1.100:0" target="_blank">10.10.1.100:0</a><br>
&gt;     &lt;<a href="http://10.10.1.100:0" target="_blank">http://10.10.1.100:0</a>&gt;,<a href="http://127.0.0.1:0" target="_blank">127.0.0.1:0</a> &lt;<a href="http://127.0.0.1:0" target="_blank">http://127.0.0.1:0</a>&gt;:<br>

<div><div class="h5">&gt;        0<br>
&gt;     Copy Command:           /usr/bin/scp -rpB<br>
&gt;     NOTE:  no local jobs detected<br>
&gt;<br>
&gt;     diagnostics complete<br>
&gt;<br>
&gt;<br>
&gt;     *****************************************<br>
&gt;<br>
&gt;     # qstat 229<br>
&gt;     qstat: Unknown Job Id Error 229.master<br>
&gt;<br>
&gt;     **********************************************<br>
&gt;<br>
&gt;     On 10/11/2013 01:41 PM, David Beer wrote:<br>
&gt;      &gt; Gus,<br>
&gt;      &gt;<br>
&gt;      &gt; That is a really strange situation.<br>
&gt;      &gt;<br>
&gt;      &gt; The error<br>
&gt;      &gt;<br>
&gt;      &gt; Oct 11 04:19:24 master pbs_server: LOG_ERROR::Job not found<br>
&gt;     (15086) in<br>
&gt;      &gt; svr_dequejob, Job has no queue<br>
&gt;      &gt;<br>
&gt;      &gt; can&#39;t happen around running a job. This is related to a job getting<br>
&gt;      &gt; routed or moved to a remote server. Are you doing this? Can you<br>
&gt;     provide<br>
&gt;      &gt; a sequence of events that lead to this error?<br>
&gt;      &gt;<br>
&gt;      &gt; The other errors:<br>
&gt;      &gt; Oct 11 04:55:55 master pbs_server: LOG_ERROR::Time out (15085) in<br>
&gt;      &gt; send_job_work, child failed in previous commit request for job<br>
&gt;     228.master<br>
&gt;      &gt;<br>
&gt;      &gt; can happen during any type of job move: running a job, routing it, or<br>
&gt;      &gt; moving it to a remote server. However, in most cases there should<br>
&gt;     be an<br>
&gt;      &gt; error message before this that provides more information about<br>
&gt;     what the<br>
&gt;      &gt; failure was. Have you looked through the entire log file around these<br>
&gt;      &gt; messages to try to find the root cause of the problem?<br>
&gt;      &gt;<br>
&gt;      &gt; As far as the question about compatibility - 4.2.6 will resolve the<br>
&gt;      &gt; issue with pbs_sched and there is no intention to break compatibility<br>
&gt;      &gt; with Maui.<br>
&gt;      &gt;<br>
&gt;      &gt; I&#39;m not sure if the problem you&#39;re having is related to what kind of<br>
&gt;      &gt; scheduler you are using or what the root issue is at this point.<br>
&gt;      &gt;<br>
&gt;<br>
&gt;     I also don&#39;t know if Maui plays any role on this.<br>
&gt;     I was just afraid it might.<br>
&gt;     Currently Maui has the standard boilerplate configuration,<br>
&gt;     I only added the maui user to the ADMIN1 line.<br>
&gt;<br>
&gt;     I just ran an interactive job as a regular user.<br>
&gt;     The job appeared in R state on qstat,<br>
&gt;     but I never received the prompt back from the node,<br>
&gt;     until I forced it to run with qrun (as root, of course).<br>
&gt;     When I finished the job, logging out of the node,<br>
&gt;     I&#39;ve got two pairs of identical emails from Torque, each<br>
&gt;     duplicate numbered with the same job number (229).<br>
&gt;<br>
&gt;     No, no, there are no duplicate pbs_server running, only one,<br>
&gt;     ps shows that.<br>
&gt;     So, something is really wedged.<br>
&gt;<br>
&gt;     If there is any additional diagnostic information that I can<br>
&gt;     provide, please let me know.  I&#39;ll be happy to send.<br>
&gt;<br>
&gt;     Thank you,<br>
&gt;     Gus<br>
&gt;<br>
&gt;<br>
&gt;      &gt;<br>
&gt;      &gt; On Fri, Oct 11, 2013 at 10:22 AM, Gus Correa<br>
&gt;     &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a> &lt;mailto:<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;<br>
</div></div><div><div class="h5">&gt;      &gt; &lt;mailto:<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a> &lt;mailto:<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;&gt;&gt; wrote:<br>

&gt;      &gt;<br>
&gt;      &gt;     Dear Torque experts<br>
&gt;      &gt;<br>
&gt;      &gt;     I installed Torque 4.2.5 and Maui 3.3.1 in this cluster.<br>
&gt;      &gt;     For a few days it worked, but now I get jobs stalled in Q state<br>
&gt;      &gt;     that only run when forced by qrun.<br>
&gt;      &gt;<br>
&gt;      &gt;     I get these syslog error messages on the server,<br>
&gt;      &gt;     repeated time and again:<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;     **************************************************************************<br>
&gt;      &gt;     Oct 11 04:19:24 master pbs_server: LOG_ERROR::Job not found<br>
&gt;     (15086) in<br>
&gt;      &gt;     svr_dequejob, Job has no queue<br>
&gt;      &gt;     Oct 11 04:34:20 master pbs_server: LOG_ERROR::Time out (15085) in<br>
&gt;      &gt;     send_job_work, child failed in previous commit request for job<br>
&gt;      &gt;     219.master<br>
&gt;      &gt;     Oct 11 04:55:55 master pbs_server: LOG_ERROR::Time out (15085) in<br>
&gt;      &gt;     send_job_work, child failed in previous commit request for job<br>
&gt;      &gt;     228.master<br>
&gt;      &gt;<br>
&gt;      &gt;     ...<br>
&gt;      &gt;<br>
&gt;      &gt;     Oct 11 05:31:07 master pbs_server: LOG_ERROR::Batch protocol<br>
&gt;     error<br>
&gt;      &gt;     (15033) in send_job_work, child failed in previous commit<br>
&gt;     request for<br>
&gt;      &gt;     job 219.master<br>
&gt;      &gt;     Oct 11 05:53:07 master pbs_server: LOG_ERROR::Batch protocol<br>
&gt;     error<br>
&gt;      &gt;     (15033) in send_job_work, child failed in previous commit<br>
&gt;     request for<br>
&gt;      &gt;     job 228.master<br>
&gt;      &gt;     ...<br>
&gt;      &gt;<br>
&gt;     **************************************************************************<br>
&gt;      &gt;<br>
&gt;      &gt;     And here are the jobs forever in Q state:<br>
&gt;      &gt;<br>
&gt;      &gt;     qstat 219 228<br>
&gt;      &gt;     Job ID                    Name             User<br>
&gt;       Time Use<br>
&gt;      &gt;     S Queue<br>
&gt;      &gt;     ------------------------- ---------------- ---------------<br>
&gt;     --------<br>
&gt;      &gt;     - -----<br>
&gt;      &gt;     219.master                 GC.Base.1981.01  ltmurray<br>
&gt;            0 Q<br>
&gt;      &gt;     production<br>
&gt;      &gt;     228.master                 g1ms290_lg_1     sw2526<br>
&gt;            0 Q<br>
&gt;      &gt;     production<br>
&gt;      &gt;<br>
&gt;      &gt;     ************<br>
&gt;      &gt;<br>
&gt;      &gt;     I already restarted pbs_mom and trqauthd on the nodes,<br>
&gt;      &gt;     restarted pbs_server, trquauthd and maui on the server,<br>
&gt;      &gt;     repeated the routine many times and nothing seems to help.<br>
&gt;      &gt;     I even rebooted the nodes, to no avail.<br>
&gt;      &gt;<br>
&gt;      &gt;     At this point the machine is already in production, so<br>
&gt;      &gt;     playing hard ball this way with the nodes is a real pain<br>
&gt;      &gt;     for me and for the users and their jobs.<br>
&gt;      &gt;<br>
&gt;      &gt;     Questions:<br>
&gt;      &gt;<br>
&gt;      &gt;     1) What is wrong?<br>
&gt;      &gt;<br>
&gt;      &gt;     2) Should I downgrade to the old (hopefully reliable) Torque<br>
&gt;     2.5.X?<br>
&gt;      &gt;<br>
&gt;      &gt;     3) We know that Torque 4.X.Y currently doesn&#39;t work with<br>
&gt;     pbs_sched.<br>
&gt;      &gt;     Does it work with Maui at least?<br>
&gt;      &gt;     Or only with Moab these days?<br>
&gt;      &gt;<br>
&gt;      &gt;     Thank you,<br>
&gt;      &gt;     Gus Correa<br>
&gt;      &gt;     _______________________________________________<br>
&gt;      &gt;     torqueusers mailing list<br>
&gt;      &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
</div></div>&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<div class="im">&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;&gt;<br>
&gt;      &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt; --<br>
&gt;      &gt; David Beer | Senior Software Engineer<br>
&gt;      &gt; Adaptive Computing<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt; _______________________________________________<br>
&gt;      &gt; torqueusers mailing list<br>
</div>&gt;      &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
<div class="HOEnZb"><div class="h5">&gt;      &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;     _______________________________________________<br>
&gt;     torqueusers mailing list<br>
&gt;     <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt;     <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; David Beer | Senior Software Engineer<br>
&gt; Adaptive Computing<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>