<HTML dir=ltr><HEAD><TITLE>Re: [Mauiusers] [torqueusers] Jobs going into incorrect queue</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3527" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText2659 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>does it fail if you submit a 300 hour job directly to the short queue?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> mauiusers-bounces@supercluster.org on behalf of Philip Peartree<BR><B>Sent:</B> Wed 4/22/2009 1:19 PM<BR><B>To:</B> Steve Young<BR><B>Cc:</B> torqueusers@supercluster.org; mauiusers@supercluster.org<BR><B>Subject:</B> Re: [Mauiusers] [torqueusers] Jobs going into incorrect queue<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>The reasoning behind the long time limit, is that some software we use&nbsp;<BR>is notoriously unpredictable, and therefore, it's best to give a&nbsp;<BR>longish time, knowing that most will complete quickly, but some can&nbsp;<BR>last nearly those 2 weeks.<BR><BR><BR>Quoting Steve Young &lt;chemadm@hamilton.edu&gt;:<BR><BR>&gt; Hi Phillip,<BR>&gt; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ah I see... yea first glance it looks like it *should* work =). I'm&nbsp;<BR>&gt; using routing queue's but they aren't based on walltime so not sure&nbsp;<BR>&gt; if I have any good suggestions. The routing queue's I have setup&nbsp;<BR>&gt; work as expected. What happens when you try submitting a job to each&nbsp;<BR>&gt; of the execution queue's? I'd think you should get rejected on the&nbsp;<BR>&gt; short_2h?<BR>&gt;<BR>&gt; My point before was to understand why you'd want to let them default&nbsp;<BR>&gt; to a large amount of time instead of making it smaller so it&nbsp;<BR>&gt; finishes quick and they figure out they need to put in a proper&nbsp;<BR>&gt; walltime. If I queue up something that takes a month to run but&nbsp;<BR>&gt; forget to put in walltime I wouldn't know for two weeks. Then when&nbsp;<BR>&gt; it was killed off by the system I'd have to start again with the&nbsp;<BR>&gt; proper walltime thus taking a month to get back to where I was when&nbsp;<BR>&gt; it ended prematurely. Anyhow, hope this helps.<BR>&gt;<BR>&gt; -Steve<BR>&gt;<BR>&gt;<BR>&gt; On Apr 22, 2009, at 9:16 AM, Philip Peartree wrote:<BR>&gt;<BR>&gt;&gt; Steve, you seem to have miss understood, I have a default walltime<BR>&gt;&gt; set, at 2 weeks (336 hours), and therefore the job should go into the<BR>&gt;&gt; unspec queue, but instead, it is going to the short_2h queue, where it<BR>&gt;&gt; shouldn't be able to run (since the max queue walltime 2h)<BR>&gt;&gt;<BR>&gt;&gt; I have included the full output of print server:<BR>&gt;&gt;<BR>&gt;&gt; #<BR>&gt;&gt; # Create queues and set their attributes.<BR>&gt;&gt; #<BR>&gt;&gt; #<BR>&gt;&gt; # Create and define queue short_2h<BR>&gt;&gt; #<BR>&gt;&gt; create queue short_2h<BR>&gt;&gt; set queue short_2h queue_type = Execution<BR>&gt;&gt; set queue short_2h Priority = 50<BR>&gt;&gt; set queue short_2h resources_max.walltime = 02:00:00<BR>&gt;&gt; set queue short_2h acl_group_enable = True<BR>&gt;&gt; set queue short_2h acl_groups = nmrc<BR>&gt;&gt; set queue short_2h enabled = True<BR>&gt;&gt; set queue short_2h started = True<BR>&gt;&gt; #<BR>&gt;&gt; # Create and define queue guest<BR>&gt;&gt; #<BR>&gt;&gt; create queue guest<BR>&gt;&gt; set queue guest queue_type = Execution<BR>&gt;&gt; set queue guest Priority = 10<BR>&gt;&gt; set queue guest enabled = True<BR>&gt;&gt; set queue guest started = True<BR>&gt;&gt; #<BR>&gt;&gt; # Create and define queue long_1w<BR>&gt;&gt; #<BR>&gt;&gt; create queue long_1w<BR>&gt;&gt; set queue long_1w queue_type = Execution<BR>&gt;&gt; set queue long_1w Priority = 30<BR>&gt;&gt; set queue long_1w resources_max.walltime = 168:00:00<BR>&gt;&gt; set queue long_1w acl_group_enable = True<BR>&gt;&gt; set queue long_1w acl_groups = nmrc<BR>&gt;&gt; set queue long_1w enabled = True<BR>&gt;&gt; set queue long_1w started = True<BR>&gt;&gt; #<BR>&gt;&gt; # Create and define queue med_12h<BR>&gt;&gt; #<BR>&gt;&gt; create queue med_12h<BR>&gt;&gt; set queue med_12h queue_type = Execution<BR>&gt;&gt; set queue med_12h Priority = 40<BR>&gt;&gt; set queue med_12h resources_max.walltime = 12:00:00<BR>&gt;&gt; set queue med_12h acl_group_enable = True<BR>&gt;&gt; set queue med_12h acl_groups = nmrc<BR>&gt;&gt; set queue med_12h enabled = True<BR>&gt;&gt; set queue med_12h started = True<BR>&gt;&gt; #<BR>&gt;&gt; # Create and define queue route<BR>&gt;&gt; #<BR>&gt;&gt; create queue route<BR>&gt;&gt; set queue route queue_type = Route<BR>&gt;&gt; set queue route route_destinations = short_2h<BR>&gt;&gt; set queue route route_destinations += med_12h<BR>&gt;&gt; set queue route route_destinations += long_1w<BR>&gt;&gt; set queue route route_destinations += unspec<BR>&gt;&gt; set queue route route_destinations += guest<BR>&gt;&gt; set queue route enabled = True<BR>&gt;&gt; set queue route started = True<BR>&gt;&gt; #<BR>&gt;&gt; # Create and define queue unspec<BR>&gt;&gt; #<BR>&gt;&gt; create queue unspec<BR>&gt;&gt; set queue unspec queue_type = Execution<BR>&gt;&gt; set queue unspec Priority = 20<BR>&gt;&gt; set queue unspec acl_group_enable = True<BR>&gt;&gt; set queue unspec acl_groups = nmrc<BR>&gt;&gt; set queue unspec enabled = True<BR>&gt;&gt; set queue unspec started = True<BR>&gt;&gt; #<BR>&gt;&gt; # Set server attributes.<BR>&gt;&gt; #<BR>&gt;&gt; set server scheduling = True<BR>&gt;&gt; set server acl_hosts = steel<BR>&gt;&gt; set server managers = root@steel.mib.man.ac.uk<BR>&gt;&gt; set server operators = root@steel.mib.man.ac.uk<BR>&gt;&gt; set server default_queue = route<BR>&gt;&gt; set server log_events = 511<BR>&gt;&gt; set server mail_from = adm<BR>&gt;&gt; set server query_other_jobs = True<BR>&gt;&gt; set server resources_default.walltime = 336:00:00<BR>&gt;&gt; set server scheduler_iteration = 600<BR>&gt;&gt; set server node_check_rate = 150<BR>&gt;&gt; set server tcp_timeout = 6<BR>&gt;&gt; set server queue_centric_limits = True<BR>&gt;&gt; set server mom_job_sync = True<BR>&gt;&gt; set server keep_completed = 300<BR>&gt;&gt; set server next_job_number = 9066<BR>&gt;&gt;<BR>&gt;&gt;<BR>&gt;&gt; Thanks<BR>&gt;&gt;<BR>&gt;&gt; Phil<BR>&gt;&gt;<BR>&gt;&gt;<BR>&gt;&gt; Quoting Steve Young &lt;chemadm@hamilton.edu&gt;:<BR>&gt;&gt;<BR>&gt;&gt;&gt; Hi,<BR>&gt;&gt;&gt; &nbsp;&nbsp;&nbsp; I use a server default for torque.....<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; set server resources_default.walltime = 24:00:00<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; This way if they don't specify anything they will default to 24<BR>&gt;&gt;&gt; hours.&nbsp; I took the approach that if the user doesn't specify anything<BR>&gt;&gt;&gt; that they should get a minimal amount of queue time. With this I don't<BR>&gt;&gt;&gt; have to have a queue to handle unspecified. I'd rather have their job<BR>&gt;&gt;&gt; finish fairly quick and realize they didn't specify a time than to<BR>&gt;&gt;&gt; have them go for days/weeks before they realized they didn't specify<BR>&gt;&gt;&gt; it. I'd hate to have a job run for two weeks and then end up getting<BR>&gt;&gt;&gt; killed off because I didn't specify my time. Especially for a job that<BR>&gt;&gt;&gt; can't pick up where it left off and has to start from the beginning<BR>&gt;&gt;&gt; again. Seems like a waste of resources to me. Not sure if this helps<BR>&gt;&gt;&gt; you any. Could you send the output of the rest of the qmgr output?<BR>&gt;&gt;&gt; It's hard to tell why it's getting to the unspec queue if we can't see<BR>&gt;&gt;&gt; the config for it.<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; -Steve<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; On Apr 21, 2009, at 1:06 PM, Philip Peartree wrote:<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; The default queue is the routing queue, which should place the job<BR>&gt;&gt;&gt;&gt; based on allowed time, that is why it's so puzzling that the jobs end<BR>&gt;&gt;&gt;&gt; up in the short_2h queue, as they should be rejected by that and<BR>&gt;&gt;&gt;&gt; others until it reaches the unspec queue.<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; Quoting "Greenseid, Joseph M (IS)" &lt;Joseph.Greenseid@ngc.com&gt;:<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; have you tried to set the default queue (set server default_queue =<BR>&gt;&gt;&gt;&gt;&gt; unspec) in qmgr?&nbsp; this is how i route jobs that don't specify<BR>&gt;&gt;&gt;&gt;&gt; resources to a default location...<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; --Joe<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; ________________________________<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; From: mauiusers-bounces@supercluster.org on behalf of Philip Peartree<BR>&gt;&gt;&gt;&gt;&gt; Sent: Tue 4/21/2009 12:32 PM<BR>&gt;&gt;&gt;&gt;&gt; To: torqueusers@supercluster.org; mauiusers@supercluster.org<BR>&gt;&gt;&gt;&gt;&gt; Subject: [Mauiusers] Jobs going into incorrect queue<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; Hi Guys<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; I have a problem that jobs appear to be not routing to the correct<BR>&gt;&gt;&gt;&gt;&gt; queue. My set up is as follows:<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; routing queue<BR>&gt;&gt;&gt;&gt;&gt; 2h queue<BR>&gt;&gt;&gt;&gt;&gt; 12h queue<BR>&gt;&gt;&gt;&gt;&gt; 1w queue<BR>&gt;&gt;&gt;&gt;&gt; unspecified time queue (max time 2w)<BR>&gt;&gt;&gt;&gt;&gt; guest queue (low priority)<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; If a time is unspecified at job submission a default time of 2w<BR>&gt;&gt;&gt;&gt;&gt; (336h) is set<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; The routing queue is setup as follows (as taken from qmgr -c 'print<BR>&gt;&gt;&gt;&gt;&gt; server')<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; create queue route<BR>&gt;&gt;&gt;&gt;&gt; set queue route queue_type = Route<BR>&gt;&gt;&gt;&gt;&gt; set queue route route_destinations = short_2h<BR>&gt;&gt;&gt;&gt;&gt; set queue route route_destinations += med_12h<BR>&gt;&gt;&gt;&gt;&gt; set queue route route_destinations += long_1w<BR>&gt;&gt;&gt;&gt;&gt; set queue route route_destinations += unspec<BR>&gt;&gt;&gt;&gt;&gt; set queue route route_destinations += guest<BR>&gt;&gt;&gt;&gt;&gt; set queue route enabled = True<BR>&gt;&gt;&gt;&gt;&gt; set queue route started = True<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; my problem is that some jobs with unspecified time (which have<BR>&gt;&gt;&gt;&gt;&gt; correctly been given a time of 336h) are ending up in the short_2h<BR>&gt;&gt;&gt;&gt;&gt; queue, which has a higher priority than other queues. Does anyone<BR>&gt;&gt;&gt;&gt;&gt; know<BR>&gt;&gt;&gt;&gt;&gt; of any possible explanation for this?<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; Phil Peartree<BR>&gt;&gt;&gt;&gt;&gt; University of Manchester<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; _______________________________________________<BR>&gt;&gt;&gt;&gt;&gt; mauiusers mailing list<BR>&gt;&gt;&gt;&gt;&gt; mauiusers@supercluster.org<BR>&gt;&gt;&gt;&gt;&gt; <A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; _______________________________________________<BR>&gt;&gt;&gt;&gt; mauiusers mailing list<BR>&gt;&gt;&gt;&gt; mauiusers@supercluster.org<BR>&gt;&gt;&gt;&gt; <A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; _______________________________________________<BR>&gt;&gt;&gt; mauiusers mailing list<BR>&gt;&gt;&gt; mauiusers@supercluster.org<BR>&gt;&gt;&gt; <A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR>&gt;&gt;&gt;<BR>&gt;&gt;<BR>&gt;&gt;<BR>&gt;&gt;<BR>&gt;&gt; _______________________________________________<BR>&gt;&gt; torqueusers mailing list<BR>&gt;&gt; torqueusers@supercluster.org<BR>&gt;&gt; <A href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</A><BR>&gt;<BR>&gt;<BR><BR><BR><BR>_______________________________________________<BR>mauiusers mailing list<BR>mauiusers@supercluster.org<BR><A href="http://www.supercluster.org/mailman/listinfo/mauiusers">http://www.supercluster.org/mailman/listinfo/mauiusers</A><BR></FONT></P></DIV></BODY></HTML>