<br><br><div class="gmail_quote">On Thu, Feb 16, 2012 at 3:55 PM, Gustavo Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi Christina<br>
<br>
This is just a vague thought, not sure if in the right direction.<br>
<br>
I am a bit confused about the domain being admin.default.domain<br>
Is this the sever name in $TORQUE/server_name on the head node?<br></blockquote><div> </div><div>Yes, this is the name server&#39;s second interface, on the private network to the compute nodes, and it is the name in the Torque/server_name file on the head node and compute nodes.</div>
<div><br></div><div><div>[root@wings torque]# more server_name</div><div>admin.default.domain</div></div><div><div>[root@n001 torque]# more server_name</div><div>admin.default.domain</div></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Is it something else, perhaps the head node FQDN Internet address?<br></blockquote><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
How about this line in the compute nodes&#39;  $TORQUE/mom_priv/config file:<br>
$pbsserver .....<br>
What is the server name that appears there?<br></blockquote><div><br></div><div>oh oh!!  There is no /var/spool/torque/mom_priv/config file!!  What should that look like? </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<br>
These items were a source of confusion for me long ago.<br>
I don&#39;t even remember anymore<br>
what was the mistake and how it was fixed, but maybe there is something here. </blockquote><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Also, is there any hint of the problem in the $TORQUE/mom_logs files in the compute nodes?<br></blockquote><div><br></div><div>02/16/2012 13:23:18;0002;   pbs_mom;Svr;im_eof;End of File from addr <a href="http://10.0.10.1:15001">10.0.10.1:15001</a></div>
<div>02/16/2012 13:23:18;0002;   pbs_mom;n/a;mom_server_check_connection;sending hello to server admin.default.domain</div><div>02/16/2012 13:23:29;0001;   pbs_mom;Svr;mom_server_valid_message_source;duplicate connection from <a href="http://10.0.10.1:1023">10.0.10.1:1023</a> - cl</div>
<div>osing original connection</div><div>02/16/2012 13:24:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/16/2012 13:29:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>
<div>02/16/2012 13:34:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/16/2012 13:39:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/16/2012 13:44:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>
<div>02/16/2012 13:49:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/16/2012 13:53:53;0001;   pbs_mom;Job;TMomFinalizeJob3;job 22.admin.default.domain started, pid = 30429</div><div>02/16/2012 13:54:03;0080;   pbs_mom;Job;22.admin.default.domain;scan_for_terminated: job 22.admin.default.domain task</div>
<div> 1 terminated, sid=30429</div><div>02/16/2012 13:54:03;0008;   pbs_mom;Job;22.admin.default.domain;job was terminated</div><div>02/16/2012 13:54:03;0080;   pbs_mom;Svr;preobit_reply;top of preobit_reply</div><div>02/16/2012 13:54:03;0080;   pbs_mom;Svr;preobit_reply;DIS_reply_read/decode_DIS_replySvr worked, top of while loop</div>
<div>02/16/2012 13:54:03;0080;   pbs_mom;Svr;preobit_reply;in while loop, no error from job stat</div><div>02/16/2012 13:54:03;0080;   pbs_mom;Job;22.admin.default.domain;obit sent to server</div><div>02/16/2012 13:54:03;0080;   pbs_mom;Job;22.admin.default.domain;removed job script</div>
<div>02/16/2012 13:54:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/16/2012 13:59:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/16/2012 14:04:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>
<div>02/16/2012 14:09:46;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
How about the /var/log/messages on the compute nodes, any smoking gun there?<br></blockquote><div><br></div><div>AHA!!  This might be a clue!!</div><div><br></div><div>Feb 16 03:06:03 n001 rpc.idmapd[2776]: nss_getpwnam: name &#39;<a href="mailto:root@glerl.noaa.gov">root@glerl.noaa.gov</a>&#39; does not map into domain &#39;default.domain&#39;</div>
<div>Feb 16 10:14:54 n001 rpc.idmapd[2776]: nss_getpwnam: name &#39;<a href="mailto:root@glerl.noaa.gov">root@glerl.noaa.gov</a>&#39; does not map into domain &#39;default.domain&#39;</div><div>Feb 16 15:49:23 n001 rpc.idmapd[2776]: nss_getpwnam: name &#39;<a href="mailto:root@glerl.noaa.gov">root@glerl.noaa.gov</a>&#39; does not map into domain &#39;default.domain&#39;</div>
<div>[root@n001 mom_logs]#    </div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Can the compute nodes resolve the Torque server name [easy way via /etc/hosts]?<br></blockquote><div> </div><div>yes </div><div><br></div><div>From /etc/hosts file</div><div><br></div><div><div># Management Entries</div>
<div><br></div><div>10.0.10.1       admin.default.domain     admin loghost</div><div>192.168.20.1    admin-ib.default.domain  admin-ib loghost-ib</div><div><br></div><div># Ethernet Node Entries</div><div><br></div><div>10.0.1.1        n001.default.domain      n001</div>
<div>10.0.1.2        n002.default.domain      n002</div><div>10.0.1.3        n003.default.domain      n003</div></div><div>.........</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Can the Torque server resolve the compute nodes&#39; names [ say in /etc/hosts]?<br></blockquote><div><br></div><div>yes</div><div><br></div><div>From the /etc/hosts file on the server</div><div><br></div><div><div># Management Entries</div>
<div><br></div><div>10.0.10.1       admin.default.domain     admin loghost</div><div>192.168.20.1    admin-ib.default.domain  admin-ib loghost-ib</div><div><br></div><div># Ethernet Node Entries</div><div><br></div><div>10.0.1.1        n001.default.domain      n001</div>
<div>10.0.1.2        n002.default.domain      n002</div><div>10.0.1.3        n003.default.domain      n003</div><div>10.0.1.4        n004.default.domain      n004</div></div><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Is there a firewall between the server and the compute nodes?<br></blockquote><div><br></div><div>no firewall enabled. </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<br>
Maybe the Torque Admin Guide, Ch. 1 [overview/installation/configuration]<br>
and Ch 11 [troubleshooting] can help:<br>
<br>
<a href="http://www.adaptivecomputing.com/resources/docs/" target="_blank">http://www.adaptivecomputing.com/resources/docs/</a><br>
<br>
I hope this helps,<br></blockquote><div><br></div><div>Thanks Gus!!  I will review the Admin Guide.  It is what I used to do the setup but I have been changing things right and left!</div><div>I have also read the troubleshooting guide to no avail.  Back to the drawing board.</div>
<div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Gus Correa<br>
<div><div class="h5"><br>
On Feb 16, 2012, at 3:10 PM, Christina Salls wrote:<br>
<br>
&gt; Hi all,<br>
&gt;<br>
&gt;          My situation has improved but I am still not there.  I can submit a job successfully, but it will stay in the queue until I force execution with qrun.<br>
&gt;<br>
&gt; eg.<br>
&gt;<br>
&gt; -bash-4.1$ qsub ./example_submit_script_1<br>
&gt; 22.admin.default.domain<br>
&gt; -bash-4.1$ qstat -a<br>
&gt;<br>
&gt; admin.default.domain:<br>
&gt;                                                                          Req&#39;d  Req&#39;d   Elap<br>
&gt; Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time<br>
&gt; -------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----<br>
&gt; 22.admin.default     salls    batch    ExampleJob          --      1   1    --  00:01 Q   --<br>
&gt;<br>
&gt; .[root@wings ~]# qrun 22<br>
&gt; [root@wings ~]# qstat -a<br>
&gt;<br>
&gt; admin.default.domain:<br>
&gt;                                                                          Req&#39;d  Req&#39;d   Elap<br>
&gt; Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time<br>
&gt; -------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----<br>
&gt; 22.admin.default     salls    batch    ExampleJob        30429     1   1    --  00:01 R   --<br>
&gt;<br>
&gt; [root@wings ~]# qstat -a<br>
&gt;<br>
&gt; admin.default.domain:<br>
&gt;                                                                          Req&#39;d  Req&#39;d   Elap<br>
&gt; Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time<br>
&gt; -------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----<br>
&gt; 22.admin.default     salls    batch    ExampleJob        30429     1   1    --  00:01 C 00:00<br>
&gt; [root@wings ~]#<br>
&gt;<br>
&gt;<br>
&gt; This is what tracejob output looks like:<br>
&gt;<br>
&gt; [root@wings ~]# tracejob 22<br>
&gt; /var/spool/torque/mom_logs/20120216: No such file or directory<br>
&gt; /var/spool/torque/sched_logs/20120216: No matching job records located<br>
&gt;<br>
&gt; Job: 22.admin.default.domain<br>
&gt;<br>
&gt; 02/16/2012 13:46:51  S    enqueuing into batch, state 1 hop 1<br>
&gt; 02/16/2012 13:46:51  S    Job Queued at request of salls@admin.default.domain, owner = salls@admin.default.domain,<br>
&gt;                           job name = ExampleJob, queue = batch<br>
&gt; 02/16/2012 13:46:51  A    queue=batch<br>
&gt; 02/16/2012 13:53:53  S    Job Run at request of root@admin.default.domain<br>
&gt; 02/16/2012 13:53:53  S    Not sending email: User does not want mail of this type.<br>
&gt; 02/16/2012 13:53:53  A    user=salls group=man jobname=ExampleJob queue=batch ctime=1329421611 qtime=1329421611<br>
&gt;                           etime=1329421611 start=1329422033 owner=salls@admin.default.domain<br>
&gt;                           exec_host=n001.default.domain/0 Resource_List.neednodes=1 Resource_List.nodect=1<br>
&gt;                           Resource_List.nodes=1 Resource_List.walltime=00:01:00<br>
&gt; 02/16/2012 13:54:03  S    Not sending email: User does not want mail of this type.<br>
&gt; 02/16/2012 13:54:03  S    Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb<br>
&gt;                           resources_used.walltime=00:00:10<br>
&gt; 02/16/2012 13:54:03  A    user=salls group=man jobname=ExampleJob queue=batch ctime=1329421611 qtime=1329421611<br>
&gt;                           etime=1329421611 start=1329422033 owner=salls@admin.default.domain<br>
&gt;                           exec_host=n001.default.domain/0 Resource_List.neednodes=1 Resource_List.nodect=1<br>
&gt;                           Resource_List.nodes=1 Resource_List.walltime=00:01:00 session=30429 end=1329422043<br>
&gt;                           Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb<br>
&gt;                           resources_used.walltime=00:00:10<br>
&gt;<br>
&gt;<br>
&gt; This is what the output files look like:<br>
&gt;<br>
&gt; -bash-4.1$ more ExampleJob.o22<br>
&gt; Thu Feb 16 13:53:53 CST 2012<br>
&gt; Thu Feb 16 13:54:03 CST 2012<br>
&gt; -bash-4.1$ more ExampleJob.e22<br>
&gt; -bash-4.1$<br>
&gt;<br>
&gt; This is my basic server config:<br>
&gt;<br>
&gt; [root@wings ~]# qmgr<br>
&gt; Max open servers: 10239<br>
&gt; Qmgr: print server<br>
&gt; #<br>
&gt; # Create queues and set their attributes.<br>
&gt; #<br>
&gt; #<br>
&gt; # Create and define queue batch<br>
&gt; #<br>
&gt; create queue batch<br>
&gt; set queue batch queue_type = Execution<br>
&gt; set queue batch resources_default.nodes = 1<br>
&gt; set queue batch resources_default.walltime = 01:00:00<br>
&gt; set queue batch enabled = True<br>
&gt; set queue batch started = True<br>
&gt; #<br>
&gt; # Set server attributes.<br>
&gt; #<br>
&gt; set server scheduling = True<br>
&gt; set server acl_hosts = admin.default.domain<br>
&gt; set server acl_hosts += <a href="http://wings.glerl.noaa.gov" target="_blank">wings.glerl.noaa.gov</a><br>
&gt; set server managers = <a href="mailto:root@wings.glerl.noaa.gov">root@wings.glerl.noaa.gov</a><br>
&gt; set server managers += <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a><br>
&gt; set server operators = <a href="mailto:root@wings.glerl.noaa.gov">root@wings.glerl.noaa.gov</a><br>
&gt; set server operators += <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a><br>
&gt; set server default_queue = batch<br>
&gt; set server log_events = 511<br>
&gt; set server mail_from = adm<br>
&gt; set server scheduler_iteration = 600<br>
&gt; set server node_check_rate = 150<br>
&gt; set server tcp_timeout = 6<br>
&gt; set server mom_job_sync = True<br>
&gt; set server keep_completed = 300<br>
&gt; set server next_job_number = 23<br>
&gt;<br>
&gt; Processes running on server:<br>
&gt;<br>
&gt; root     32086     1  0 13:23 ?        00:00:00 /usr/local/sbin/pbs_server -d /var/spool/torque -H admin.default.domain<br>
&gt; root     32173     1  0 13:23 ?        00:00:00 /usr/local/sbin/pbs_sched -d /var/spool/torque<br>
&gt;<br>
&gt;<br>
&gt; My sched_config file looks like this.  I left the default values as is.<br>
&gt;<br>
&gt; [root@wings sched_priv]# more sched_config<br>
&gt;<br>
&gt;<br>
&gt; # This is the config file for the scheduling policy<br>
&gt; # FORMAT:  option: value prime_option<br>
&gt; #     option          - the name of what we are changing defined in config.h<br>
&gt; #     value           - can be boolean/string/numeric depending on the option<br>
&gt; #     prime_option    - can be prime/non_prime/all ONLY FOR SOME OPTIONS<br>
&gt;<br>
&gt; # Round Robin -<br>
&gt; #     run a job from each queue before running second job from the<br>
&gt; #     first queue.<br>
&gt;<br>
&gt; round_robin: False    all<br>
&gt;<br>
&gt;<br>
&gt; # By Queue -<br>
&gt; #     run jobs by queues.<br>
&gt; #       If it is not set, the scheduler will look at all the jobs on<br>
&gt; #       on the server as one large queue, and ignore the queues set<br>
&gt; #       by the administrator<br>
&gt; #     PRIME OPTION<br>
&gt;<br>
&gt; by_queue: True                prime<br>
&gt; by_queue: True                non_prime<br>
&gt;<br>
&gt;<br>
&gt; # Strict Fifo -<br>
&gt; #     run jobs in strict fifo order.  If one job can not run<br>
&gt; #     move onto the next queue and do not run any more jobs<br>
&gt; #     out of that queue even if some jobs in the queue could<br>
&gt; #     be run.<br>
&gt; #     If it is not set, it could very easily starve the large<br>
&gt; #     resource using jobs.<br>
&gt; #     PRIME OPTION<br>
&gt;<br>
&gt; strict_fifo: false    ALL<br>
&gt;<br>
&gt; #<br>
&gt; # fair_share - schedule jobs based on usage and share values<br>
&gt; #     PRIME OPTION<br>
&gt; #<br>
&gt; fair_share: false     ALL<br>
&gt;<br>
&gt; # Help Starving Jobs -<br>
&gt; #     Jobs which have been waiting a long time will<br>
&gt; #     be considered starving.  Once a job is considered<br>
&gt; #     starving, the scheduler will not run any jobs<br>
&gt; #     until it can run all of the starving jobs.<br>
&gt; #     PRIME OPTION<br>
&gt;<br>
&gt; help_starving_jobs    true    ALL<br>
&gt;<br>
&gt; #<br>
&gt; # sort_queues - sort queues by the priority attribute<br>
&gt; #     PRIME OPTION<br>
&gt; #<br>
&gt; sort_queues   true    ALL<br>
&gt;<br>
&gt; #<br>
&gt; # load_balancing - load balance between timesharing nodes<br>
&gt; #     PRIME OPTION<br>
&gt; #<br>
&gt; load_balancing: false ALL<br>
&gt;<br>
&gt; # sort_by:<br>
&gt; # key:<br>
&gt; #     to sort the jobs on one key, specify it by sort_by<br>
&gt; #     If multiple sorts are necessary, set sory_by to multi_sort<br>
&gt; #     specify the keys in order of sorting<br>
&gt;<br>
&gt; # if round_robin or by_queue is set, the jobs will be sorted in their<br>
&gt; # respective queues.  If not the entire server will be sorted.<br>
&gt;<br>
&gt; # different sorts - defined in globals.c<br>
&gt; # no_sort shortest_job_first longest_job_first smallest_memory_first<br>
&gt; # largest_memory_first high_priority_first low_priority_first multi_sort<br>
&gt; # fair_share large_walltime_first short_walltime_first<br>
&gt; #<br>
&gt; #     PRIME OPTION<br>
&gt; sort_by: shortest_job_first   ALL<br>
&gt;<br>
&gt; # filter out prolific debug messages<br>
&gt; # 256 are DEBUG2 messages<br>
&gt; #     NO PRIME OPTION<br>
&gt; log_filter: 256<br>
&gt;<br>
&gt; # all queues starting with this value are dedicated time queues<br>
&gt; # i.e. dedtime or dedicatedtime would be dedtime queues<br>
&gt; #     NO PRIME OPTION<br>
&gt; dedicated_prefix: ded<br>
&gt;<br>
&gt; # ignored queues<br>
&gt; # you can specify up to 16 queues to be ignored by the scheduler<br>
&gt; #ignore_queue: queue_name<br>
&gt;<br>
&gt; # this defines how long before a job is considered starving.  If a job has<br>
&gt; # been queued for this long, it will be considered starving<br>
&gt; #     NO PRIME OPTION<br>
&gt; max_starve: 24:00:00<br>
&gt;<br>
&gt; # The following three config values are meaningless with fair share turned off<br>
&gt;<br>
&gt; # half_life - the half life of usage for fair share<br>
&gt; #     NO PRIME OPTION<br>
&gt; half_life: 24:00:00<br>
&gt;<br>
&gt; # unknown_shares - the number of shares for the &quot;unknown&quot; group<br>
&gt; #     NO PRIME OPTION<br>
&gt; unknown_shares: 10<br>
&gt;<br>
&gt; # sync_time - the amount of time between syncing the usage information to disk<br>
&gt; #     NO PRIME OPTION<br>
&gt; sync_time: 1:00:00<br>
&gt;<br>
&gt;<br>
&gt; Any idea what I need to do?<br>
&gt;<br>
&gt; Thanks,<br>
&gt;<br>
&gt;       Christina<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Christina A. Salls<br>
&gt; GLERL Computer Group<br>
&gt; <a href="mailto:help.glerl@noaa.gov">help.glerl@noaa.gov</a><br>
&gt; Help Desk x2127<br>
&gt; <a href="mailto:Christina.Salls@noaa.gov">Christina.Salls@noaa.gov</a><br>
&gt; Voice Mail <a href="tel:734-741-2446" value="+17347412446">734-741-2446</a><br>
&gt;<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a href="mailto:help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div>
<div><a href="mailto:Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div><div>Voice Mail 734-741-2446 </div><div><br></div><br>