<div dir="ltr">Thanks for the info Matt! That will make solving this problem easy. I have recorded a github issue along with a proposed solution on github: <a href="https://github.com/adaptivecomputing/torque/issues/188">https://github.com/adaptivecomputing/torque/issues/188</a><div>
<br></div><div>All interested parties feel free to view and and critique the proposed solution if you like.</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Sep 26, 2013 at 3:05 PM, Ezell, Matthew A. <span dir="ltr">&lt;<a href="mailto:ezellma@ornl.gov" target="_blank">ezellma@ornl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I think it was broken by commit 062443f9b826bce01c400acd72c779c806764198.<br>
It appears that pbs_sched works differently than Moab/Maui.  Moab and Maui<br>
actively connect to the pbs_server and ask it for status, but pbs_sched<br>
appears to communicate across the connection that the pbs_server initiates<br>
for  the SCH_SCHEDULE_TIME command.  Now, the server immediately closes<br>
the socket, so pbs_sched doesn&#39;t have a chance to ask it for status.<br>
<br>
I reverted the commit and pbs_sched appeared to start working again.  I&#39;m<br>
not sure if it has bad implications for Moab/Maui, as I don&#39;t have either<br>
setup on my development platform.<br>
<br>
~Matt<br>
<br>
---<br>
Matt Ezell<br>
HPC Systems Administrator<br>
Oak Ridge National Laboratory<br>
<div><div class="h5"><br>
<br>
<br>
<br>
On 9/17/13 12:09 PM, &quot;Ken Nielson&quot; &lt;<a href="mailto:knielson@adaptivecomputing.com">knielson@adaptivecomputing.com</a>&gt; wrote:<br>
<br>
&gt;Josh,<br>
&gt;<br>
&gt;<br>
&gt;You are right. We need to fix pbs_sched<br>
&gt;<br>
&gt;<br>
&gt;ken<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;On Tue, Sep 17, 2013 at 9:41 AM, Trutwin, Joshua<br>
&gt;&lt;<a href="mailto:JTRUTWIN@csbsju.edu">JTRUTWIN@csbsju.edu</a>&gt; wrote:<br>
&gt;<br>
&gt;Yes it is running.<br>
&gt;<br>
&gt;<br>
&gt;# qmgr -c &#39;p s&#39;<br>
&gt;#<br>
&gt;# Create queues and set their attributes.<br>
&gt;#<br>
&gt;#<br>
&gt;# Create and define queue batch<br>
&gt;#<br>
&gt;create queue batch<br>
&gt;set queue batch queue_type = Execution<br>
&gt;set queue batch resources_default.nodes = 1<br>
&gt;set queue batch resources_default.walltime = 01:00:00<br>
&gt;set queue batch enabled = True<br>
&gt;set queue batch started = True<br>
&gt;#<br>
&gt;# Set server attributes.<br>
&gt;#<br>
&gt;set server scheduling = True<br>
&gt;set server acl_hosts =<br>
</div></div>&gt;<a href="http://torque.csbsju.edu" target="_blank">torque.csbsju.edu</a> &lt;<a href="http://torque.csbsju.edu" target="_blank">http://torque.csbsju.edu</a>&gt;<br>
<div class="im">&gt;set server managers =<br>
&gt;<a href="mailto:root@torque.csbsju.edu">root@torque.csbsju.edu</a><br>
&gt;set server operators =<br>
&gt;<a href="mailto:root@torque.csbsju.edu">root@torque.csbsju.edu</a><br>
&gt;set server default_queue = batch<br>
&gt;set server log_events = 511<br>
&gt;set server mail_from = adm<br>
&gt;set server scheduler_iteration = 600<br>
&gt;set server node_check_rate = 150<br>
&gt;set server tcp_timeout = 300<br>
&gt;set server job_stat_rate = 45<br>
&gt;set server poll_jobs = True<br>
&gt;set server log_level = 4<br>
&gt;set server disable_server_id_check = True<br>
&gt;set server mom_job_sync = True<br>
&gt;set server mail_domain =<br>
</div>&gt;<a href="http://csbsju.edu" target="_blank">csbsju.edu</a> &lt;<a href="http://csbsju.edu" target="_blank">http://csbsju.edu</a>&gt;<br>
<div><div class="h5">&gt;set server keep_completed = 300<br>
&gt;set server submit_hosts = lincl[1-17]<br>
&gt;set server submit_hosts += lin[1-24]<br>
&gt;set server submit_hosts += lincsb[1-3]<br>
&gt;set server submit_hosts += linhab[1-2]<br>
&gt;set server submit_hosts += linfac[1-6]<br>
&gt;set server submit_hosts += linmath[1-4]<br>
&gt;set server submit_hosts += linphys[1-9]<br>
&gt;set server submit_hosts += linphysfac[1-4]<br>
&gt;set server submit_hosts += nx<br>
&gt;set server allow_node_submit = True<br>
&gt;set server allow_proxy_user = True<br>
&gt;set server auto_node_np = True<br>
&gt;set server next_job_number = 16<br>
&gt;set server record_job_info = True<br>
&gt;set server record_job_script = True<br>
&gt;set server moab_array_compatible = True<br>
&gt;<br>
&gt;<br>
&gt;I installed maui and things are working well for me now, but it would be<br>
&gt;nice if pbs_sched worked as well.<br>
&gt;<br>
&gt;Thanks,<br>
&gt;<br>
&gt;Josh<br>
&gt;<br>
&gt;<br>
&gt;<a href="mailto:From%3Atorqueusers-bounces@supercluster.org">From:torqueusers-bounces@supercluster.org</a><br>
&gt;[mailto:<a href="mailto:torqueusers-bounces@supercluster.org">torqueusers-bounces@supercluster.org</a>]<br>
&gt;On Behalf Of Ken Nielson<br>
&gt;Sent: Friday, September 13, 2013 11:30 AM<br>
&gt;To: Torque Users Mailing List<br>
&gt;Subject: Re: [torqueusers] pbs_sched problem in 4.2.5<br>
&gt;<br>
&gt;do you have trqauthd running?<br>
&gt;<br>
&gt;What does your qmgr -c &#39;p s&#39; output look like?<br>
&gt;<br>
&gt;Thanks<br>
&gt;<br>
&gt;<br>
&gt;On Thu, Sep 12, 2013 at 6:19 PM, Trutwin, Joshua &lt;<a href="mailto:JTRUTWIN@csbsju.edu">JTRUTWIN@csbsju.edu</a>&gt;<br>
&gt;wrote:<br>
&gt;Hi,<br>
&gt;<br>
&gt;I think Iım running into a known issue but wanted to confirm.<br>
&gt;<br>
&gt;I setup a simple torque environment using 4.2.5 ­ I have a single compute<br>
&gt;node and when I try to submit a test job it winds up getting stuck in the<br>
&gt;queue until I run qrun to force it.  I ran the scheduler like so:<br>
&gt;<br>
&gt;export PBSDEBUG=1<br>
&gt;export PBSLOGLEVEL=3<br>
&gt;/opt/torque-4.2.5/sbin/pbs_sched<br>
&gt;<br>
&gt;When I submit the job this shows up in the console:<br>
&gt;<br>
&gt;pbs_statserver failed: 15033<br>
&gt;Problem with creating server data structure<br>
&gt;<br>
&gt;Looking up this error I see these two posts about it:<br>
&gt;<br>
&gt;<a href="http://comments.gmane.org/gmane.comp.clustering.torque.user/13273" target="_blank">http://comments.gmane.org/gmane.comp.clustering.torque.user/13273</a><br>
&gt;<a href="http://comments.gmane.org/gmane.comp.clustering.torque.user/13058" target="_blank">http://comments.gmane.org/gmane.comp.clustering.torque.user/13058</a><br>
&gt;<br>
&gt;Is there a fix or do I have to switch to Maui?<br>
&gt;<br>
&gt;Thanks,<br>
&gt;<br>
&gt;Josh<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;_______________________________________________<br>
&gt;torqueusers mailing list<br>
&gt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;--<br>
&gt;Ken Nielson<br>
</div></div>&gt;<a href="tel:%2B1%20801.717.3700" value="+18017173700">+1 801.717.3700</a> &lt;tel:%2B1%20801.717.3700&gt; office<br>
&gt;<a href="tel:%2B1%20801.717.3738" value="+18017173738">+1 801.717.3738</a> &lt;tel:%2B1%20801.717.3738&gt; fax<br>
<div class="im">&gt;1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br>
</div>&gt;<a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a> &lt;<a href="http://www.adaptivecomputing.com" target="_blank">http://www.adaptivecomputing.com</a>&gt;<br>
<div class="im">&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;_______________________________________________<br>
&gt;torqueusers mailing list<br>
&gt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;--<br>
&gt;Ken Nielson<br>
&gt;<a href="tel:%2B1%20801.717.3700" value="+18017173700">+1 801.717.3700</a> office <a href="tel:%2B1%20801.717.3738" value="+18017173738">+1 801.717.3738</a> fax<br>
&gt;1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br>
</div>&gt;<a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a> &lt;<a href="http://www.adaptivecomputing.com" target="_blank">http://www.adaptivecomputing.com</a>&gt;<br>
<div class="HOEnZb"><div class="h5">&gt;<br>
&gt;<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>