<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from text --><style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<style>
<!--
.x_EmailQuote
        {margin-left:1pt;
        padding-left:4pt;
        border-left:#800000 2px solid}
-->
</style>
<div><br>
<br>
Sent from my Verizon Wireless 4GLTE smartphone<br>
<br>
<div id="x_htc_header" style="">----- Reply message -----<br>
From: &quot;Gus Correa&quot; &lt;gus@ldeo.columbia.edu&gt;<br>
To: &quot;Torque Users Mailing List&quot; &lt;torqueusers@supercluster.org&gt;<br>
Subject: [torqueusers] pbsnodes reports the same job running many times<br>
Date: Thu, Apr 19, 2012 3:47 pm<br>
<br>
</div>
<br>
<br>
</div>
<font size="2"><span style="font-size:10pt;">
<div class="PlainText">On 04/19/2012 06:25 PM, Leonardo Gregory Brunnet wrote:<br>
&gt; Hi Gus,<br>
&gt;<br>
&gt; Problem solved using simply &quot;nodes=X&quot;.<br>
&gt; Thanks for&nbsp; all suggestions!<br>
&gt;<br>
&gt; Leonardo<br>
&gt; P.S.&nbsp; We never had Moab here... ncpus appeared probably<br>
&gt; from some foreign script ;) .<br>
&gt;<br>
<br>
We also use Torque&#43;Maui here.<br>
<br>
I don't remember exactly, but ncpus may work under the barebones<br>
Torque/PBS scheduler pbs_sched, besides Moab.<br>
'ncpus' seems to be a bit troublesome with Maui, though.<br>
The easy solution is to ask the users to stick to the<br>
'nodes=X' syntax.<br>
In a more elaborate solution you can write a qsub wrapper to<br>
replace 'ncpus' the the 'nodes' and 'ppn' syntax.<br>
<br>
Gus Correa<br>
<br>
&gt; On 19-04-2012 18:08, Gus Correa wrote:<br>
&gt;&gt; Hi Leonardo<br>
&gt;&gt;<br>
&gt;&gt; On 04/19/2012 04:18 PM, Leonardo Gregory Brunnet wrote:<br>
&gt;&gt;<br>
&gt;&gt;&gt; Hi Gus,<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Thanks for the answer.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Yes, I am surprised that it is using four processors.<br>
&gt;&gt;&gt; As previously replied to David the argument used in the qsub script was<br>
&gt;&gt;&gt; ...<br>
&gt;&gt;&gt; #PBS -l ncpus=1<br>
&gt;&gt;&gt; ...<br>
&gt;&gt;&gt;<br>
&gt;&gt; Somebody may correct me, but I think ncpus is a Moab thing,<br>
&gt;&gt; which may or may not work right with Torque&#43;Maui.<br>
&gt;&gt; If you search this mailing list you will find other postings<br>
&gt;&gt; about ncpus.<br>
&gt;&gt;<br>
&gt;&gt; Here we don't use ncpus.<br>
&gt;&gt; We stick to the 'nodes=X:ppn=Y' syntax.<br>
&gt;&gt; It works for us.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;&gt; and I suppose this is correct. But in fact I don't know the difference<br>
&gt;&gt;&gt; between this one<br>
&gt;&gt;&gt; above and<br>
&gt;&gt;&gt; #PBS -l nodes=1<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I have also checked that in&nbsp; maui.cfg there is no specification for<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; JOBNODEMATCHPOLICY<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; but, in fact I don't know what is the default. If EXACTNODE is the default<br>
&gt;&gt;&gt; I should explicitely add a line to maui.cfg, correct?<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt; Check JOBNODEMATCHPOLICY in the Maui Admin guide, although it<br>
&gt;&gt; doesn't tell the default.<br>
&gt;&gt;<br>
&gt;&gt; <a href="http://www.adaptivecomputing.com/resources/docs/maui/a.fparameters.php">
http://www.adaptivecomputing.com/resources/docs/maui/a.fparameters.php</a><br>
&gt;&gt;<br>
&gt;&gt; You can add the line with your option for JOBNODEMATCHPOLICY<br>
&gt;&gt; to maui.cfg and restart maui.<br>
&gt;&gt; We use EXACTNODE here.<br>
&gt;&gt;<br>
&gt;&gt; Gus Correa<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;&gt; Leonardo<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On 19-04-2012 12:44, Gus Correa wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Hi Leonardo<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Not sure if I understood the problem right.<br>
&gt;&gt;&gt;&gt; I guess the job is legitimate and running,<br>
&gt;&gt;&gt;&gt; but it surprises you that it is using four processors,<br>
&gt;&gt;&gt;&gt; right?<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Did the user request four processors, perhaps,<br>
&gt;&gt;&gt;&gt; even though he/she is running a serial job?<br>
&gt;&gt;&gt;&gt; #PBS -l nodes=1:ppn=4<br>
&gt;&gt;&gt;&gt; This may be reasonable, say, if his/her job needs a lot<br>
&gt;&gt;&gt;&gt; of RAM, but the job is serial<br>
&gt;&gt;&gt;&gt; [or if it is Matlab ... the king of memory-greediness ...]<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Also, beware of JOBNODEMATCHPOLICY in Maui [maui.cfg]:<br>
&gt;&gt;&gt;&gt; <a href="http://www.adaptivecomputing.com/resources/docs/maui/a.fparameters.php">
http://www.adaptivecomputing.com/resources/docs/maui/a.fparameters.php</a><br>
&gt;&gt;&gt;&gt; If set to EXACTNODE full nodes will be allocated.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; I hope this helps,<br>
&gt;&gt;&gt;&gt; Gus Correa<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; On 04/18/2012 06:26 PM, Leonardo Gregory Brunnet wrote:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Dear All,<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; In a fresh installed torque/maui cluster the server reports<br>
&gt;&gt;&gt;&gt;&gt; repeated execution of a job in a given&nbsp; node. (There is no job running<br>
&gt;&gt;&gt;&gt;&gt; mpi)!.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; The output for pbsnodes for one given node gives:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; node131<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; state = job-exclusive<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; np = 4<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; properties = quadcore<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ntype = cluster<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; jobs = 0/78898.master.cluster.XX.XX.XX,<br>
&gt;&gt;&gt;&gt;&gt; 1/78898.master.cluster.XX.XX.XX, 2/78898.master.cluster.XX.XX.XX,<br>
&gt;&gt;&gt;&gt;&gt; 3/78898.master.XX.XX.XX<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; status =<br>
&gt;&gt;&gt;&gt;&gt; rectime=1334786811,varattr=,jobs=78898.master.cluster.if.ufrgs.br,state=free,netload=2914588064,gres=,loadave=1.00,ncpus=4,physmem=3985876kb,availmem=4649240kb,totmem=5062188kb,idletime=535832,nusers=2,nsessions=2,sessions=2804<br>
&gt;&gt;&gt;&gt;&gt; 8224,uname=Linux node131 2.6.23-1-amd64 #1 SMP Fri Oct 12 23:45:48 UTC<br>
&gt;&gt;&gt;&gt;&gt; 2007 x86_64,opsys=linux<br>
&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; gpus = 0<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; But, if we log in that node we will see what was expected, a single job.<br>
&gt;&gt;&gt;&gt;&gt; Since the torque server (or maui) &quot;believes&quot; all cpu's of that node are<br>
&gt;&gt;&gt;&gt;&gt; working,<br>
&gt;&gt;&gt;&gt;&gt; no other jobs are sent.&nbsp; Any clues ?<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Thanks for the help!<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Leonardo<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Below, you find the output for<br>
&gt;&gt;&gt;&gt;&gt; # qmgr -c &quot;p s&quot;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create queues and set their attributes.<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create and define queue padrao<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; create queue padrao<br>
&gt;&gt;&gt;&gt;&gt; set queue padrao queue_type = Execution<br>
&gt;&gt;&gt;&gt;&gt; set queue padrao resources_default.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue padrao resources_default.walltime = 01:00:00<br>
&gt;&gt;&gt;&gt;&gt; set queue padrao max_user_run = 5<br>
&gt;&gt;&gt;&gt;&gt; set queue padrao enabled = True<br>
&gt;&gt;&gt;&gt;&gt; set queue padrao started = True<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create and define queue um_mes<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; create queue um_mes<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes queue_type = Execution<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes resources_max.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes resources_default.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes resources_default.walltime = 720:00:00<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes max_user_run = 5<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes enabled = True<br>
&gt;&gt;&gt;&gt;&gt; set queue um_mes started = True<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create and define queue batch<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; create queue batch<br>
&gt;&gt;&gt;&gt;&gt; set queue batch queue_type = Execution<br>
&gt;&gt;&gt;&gt;&gt; set queue batch resources_default.nodes = 1<br>
&gt;&gt;&gt;&gt;&gt; set queue batch resources_default.walltime = 01:00:00<br>
&gt;&gt;&gt;&gt;&gt; set queue batch enabled = True<br>
&gt;&gt;&gt;&gt;&gt; set queue batch started = True<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create and define queue um_dia<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; create queue um_dia<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia queue_type = Execution<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia resources_max.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia resources_default.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia resources_default.walltime = 24:00:00<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia max_user_run = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia enabled = True<br>
&gt;&gt;&gt;&gt;&gt; set queue um_dia started = True<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create and define queue uma_semana<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; create queue uma_semana<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana queue_type = Execution<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana resources_max.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana resources_default.nodes = 7<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana resources_default.walltime = 168:00:00<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana max_user_run = 5<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana enabled = True<br>
&gt;&gt;&gt;&gt;&gt; set queue uma_semana started = True<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Create and define queue route<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; create queue route<br>
&gt;&gt;&gt;&gt;&gt; set queue route queue_type = Route<br>
&gt;&gt;&gt;&gt;&gt; set queue route route_destinations = padrao<br>
&gt;&gt;&gt;&gt;&gt; set queue route route_destinations &#43;= padrao2<br>
&gt;&gt;&gt;&gt;&gt; set queue route enabled = True<br>
&gt;&gt;&gt;&gt;&gt; set queue route started = True<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; # Set server attributes.<br>
&gt;&gt;&gt;&gt;&gt; #<br>
&gt;&gt;&gt;&gt;&gt; set server scheduling = True<br>
&gt;&gt;&gt;&gt;&gt; set server acl_hosts = master.cluster.XX.XX.XX<br>
&gt;&gt;&gt;&gt;&gt; set server acl_hosts &#43;= clusterapg<br>
&gt;&gt;&gt;&gt;&gt; set server managers = root@master.cluster.XX.XX.XX<br>
&gt;&gt;&gt;&gt;&gt; set server operators = root@master.cluster.XX.XX.XX<br>
&gt;&gt;&gt;&gt;&gt; set server default_queue = padrao<br>
&gt;&gt;&gt;&gt;&gt; set server log_events = 511<br>
&gt;&gt;&gt;&gt;&gt; set server mail_from = adm<br>
&gt;&gt;&gt;&gt;&gt; set server scheduler_iteration = 600<br>
&gt;&gt;&gt;&gt;&gt; set server node_check_rate = 150<br>
&gt;&gt;&gt;&gt;&gt; set server tcp_timeout = 6<br>
&gt;&gt;&gt;&gt;&gt; set server mom_job_sync = True<br>
&gt;&gt;&gt;&gt;&gt; set server keep_completed = 300<br>
&gt;&gt;&gt;&gt;&gt; set server next_job_number = 79033<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt; torqueusers mailing list<br>
&gt;&gt;&gt;&gt; torqueusers@supercluster.org<br>
&gt;&gt;&gt;&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; torqueusers mailing list<br>
&gt;&gt; torqueusers@supercluster.org<br>
&gt;&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
torqueusers@supercluster.org<br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div>
</span></font>
</body>
</html>