James ,<br> <br>Thanks for detailed mail.<br>I am using Torque version 2.4.6 with maui 3.3<br><br>As you suggested i set my /var/spool/torque/server_priv/nodes <br><br>n02 ppn=8<br>n01 ppn=8<br><br>I stopped pbs_server and while restarting i am getting this error <br>
<br>PBS_Server: LOG_ERROR::pbsd_init(setup_nodes), could not create node &quot;n02&quot;, error = 15002<br>PBS_Server: LOG_ERROR::PBS_Server, pbsd_init failed<br><br><br>if  i set <br>n02 np=8<br>
n01 np=8<br>pbs_server restart successfully.<br>|||||||||||||||||||||||||||||||||||||||||||||||||||||||||<br><br>I also tried with below mentioned setting in maui configuration but still <b>more than one job are running on each node.</b><br>
<br>NODECFG[n01]    MAXJOB=1<br>NODECFG[n02]    MAXJOB=1<br><br>Please let me know your suggestions.<br><br>With Regards,<br>Alap<br> <br><br><br><br><br><div class="gmail_quote">On Fri, Apr 30, 2010 at 4:34 AM,  <span dir="ltr">&lt;<a href="mailto:torqueusers-request@supercluster.org">torqueusers-request@supercluster.org</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Send torqueusers mailing list submissions to<br>
        <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
or, via email, send a message with subject or body &#39;help&#39; to<br>
        <a href="mailto:torqueusers-request@supercluster.org">torqueusers-request@supercluster.org</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:torqueusers-owner@supercluster.org">torqueusers-owner@supercluster.org</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than &quot;Re: Contents of torqueusers digest...&quot;<br>
<br>
<br>
Today&#39;s Topics:<br>
<br>
   1. Re: Torque configuration for single node -single job (Ken Nielson)<br>
   2. Re: Torque configuration for single node -single job<br>
      (Coyle, James J [ITACD])<br>
   3. Re: Question about        the     difference      between a       node    where<br>
      pbs_server is run and a   compute node (Garrick Staples)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Thu, 29 Apr 2010 14:48:32 -0600<br>
From: Ken Nielson &lt;<a href="mailto:knielson@adaptivecomputing.com">knielson@adaptivecomputing.com</a>&gt;<br>
Subject: Re: [torqueusers] Torque configuration for single node<br>
        -single job<br>
To: <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
Message-ID: &lt;<a href="mailto:4BD9F0A0.5030406@adaptivecomputing.com">4BD9F0A0.5030406@adaptivecomputing.com</a>&gt;<br>
Content-Type: text/plain; charset=&quot;iso-8859-1&quot;<br>
<br>
On 04/29/2010 10:46 AM, alap pandya wrote:<br>
&gt;<br>
&gt; Hi,<br>
&gt;<br>
&gt; How can we avoid node sharing by multiple job in torque (i.e. we do<br>
&gt; not want multiple jobs to run on same node at same time). Please let<br>
&gt; me know what all configuration changes are required and how to do them.<br>
&gt;<br>
&gt; With Regards,<br>
&gt; Alap<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
There are several ways to have a node run multiple jobs. Probably the<br>
easiest thing to ask is what do you have in your<br>
$TORQUEHOME/server_priv/nodes file.<br>
<br>
Ken Nielson<br>
Adaptive Computing<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <a href="http://www.supercluster.org/pipermail/torqueusers/attachments/20100429/1b974ee2/attachment-0001.html" target="_blank">http://www.supercluster.org/pipermail/torqueusers/attachments/20100429/1b974ee2/attachment-0001.html</a><br>

<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Thu, 29 Apr 2010 16:35:19 -0500<br>
From: &quot;Coyle, James J [ITACD]&quot; &lt;<a href="mailto:jjc@iastate.edu">jjc@iastate.edu</a>&gt;<br>
Subject: Re: [torqueusers] Torque configuration for single node<br>
        -single job<br>
To: Torque Users Mailing List &lt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
Message-ID:<br>
        &lt;<a href="mailto:D1D950C0853848438D74D2EB6EED082A885AD72511@EXITS711.its.iastate.edu">D1D950C0853848438D74D2EB6EED082A885AD72511@EXITS711.its.iastate.edu</a>&gt;<br>
Content-Type: text/plain; charset=&quot;us-ascii&quot;<br>
<br>
Alap,<br>
<br>
   Here are two suggestions for the case of pbs_sched (Maui  and MOAB may have more sophisticated mechanisms)<br>
The first is for any user, the second can only be implemented by the admin, and does not do exactly what you want,<br>
but is automatic.<br>
<br>
<br>
1)      For user:<br>
-----------------------------------<br>
I am going to assume that all the node are of type cluster (not time-shared) you c an check this with the command:<br>
pbsnodes -a | grep ntype<br>
<br>
all lines should look like:<br>
<br>
   ntype = cluster<br>
<br>
<br>
Assuming that the file /var/spool/torque/server_priv/nodes has lines like:<br>
<br>
node001  ppn=4<br>
node002  ppn=4<br>
<br>
where they are all 4, then andy user can get nodes to himself/herself  just by reserving full node, e.g. for the<br>
above ppn=4 submit with<br>
<br>
-lnodes=1:ppn=4<br>
<br>
Even if you only use one or two processors.  Wasteful, yes, but it works,.<br>
You have reserved the entire node so no other jobs can run on this node.  (You will likely get charged for 4 nodes also if charging is done.)<br>
<br>
If you do not have access to /var/spool/torque/server_priv/nodes , then issue:<br>
pbsnodes -a | grep np<br>
<br>
<br>
and hopefully you see the same number after np =<br>
e.g.<br>
np = 4<br>
<br>
as for the case above. (This is not a typo,  it is np= in pbsnodes -a   and ppn=  in the nodes file.)<br>
<br>
<br>
2)      For manager<br>
<br>
-----------------------<br>
<br>
  If you are a manager for the cluster, you can issue<br>
<br>
qmgr -c  &#39;set server node_pack = False&#39;<br>
<br>
  This will attempt to always start a new job on an empty node, so if there are free node, the jobs will spread out.<br>
This will not prevent jobs from sharing a node, but will delay it.<br>
I don&#39;t use this nor recommend it unless you are running the cluster like a farm, that is all the jobs are single processor<br>
Jobs and you want to spread the load as much as possible.<br>
<br>
If you are trying to run multi-processor jobs, it is best to pack them so that there are lots of fuly free nodes.<br>
<br>
<br>
 James Coyle, PhD<br>
 High Performance Computing Group<br>
 115 Durham Center<br>
 Iowa State Univ.<br>
 Ames, Iowa 50011           web: <a href="http://www.public.iastate.edu/%7Ejjc" target="_blank">http://www.public.iastate.edu/~jjc</a><br>
<br>
<br>
From: <a href="mailto:torqueusers-bounces@supercluster.org">torqueusers-bounces@supercluster.org</a> [mailto:<a href="mailto:torqueusers-bounces@supercluster.org">torqueusers-bounces@supercluster.org</a>] On Behalf Of alap pandya<br>

Sent: Thursday, April 29, 2010 11:46 AM<br>
To: <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
Subject: [torqueusers] Torque configuration for single node -single job<br>
<br>
<br>
Hi,<br>
<br>
How can we avoid node sharing by multiple job in torque (i.e. we do not want multiple jobs to run on same node at same time). Please let me know what all configuration changes are required and how to do them.<br>
<br>
With Regards,<br>
Alap<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <a href="http://www.supercluster.org/pipermail/torqueusers/attachments/20100429/9326ce7b/attachment-0001.html" target="_blank">http://www.supercluster.org/pipermail/torqueusers/attachments/20100429/9326ce7b/attachment-0001.html</a><br>

<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Thu, 29 Apr 2010 16:07:27 -0700<br>
From: Garrick Staples &lt;<a href="mailto:garrick@usc.edu">garrick@usc.edu</a>&gt;<br>
Subject: Re: [torqueusers] Question about       the     difference      between a<br>
        node    where pbs_server is run and a   compute node<br>
To: Torque Users Mailing List &lt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
Message-ID: &lt;<a href="mailto:20100429230727.GF18981@polop.usc.edu">20100429230727.GF18981@polop.usc.edu</a>&gt;<br>
Content-Type: text/plain; charset=&quot;us-ascii&quot;<br>
<br>
On Thu, Apr 29, 2010 at 09:26:06AM +0200, Bas van der Vlies alleged:<br>
&gt;<br>
&gt; On 28 apr 2010, at 20:37, Garrick Staples wrote:<br>
&gt;<br>
&gt; &gt; On Wed, Apr 28, 2010 at 08:05:08PM +0200, Bas van der Vlies alleged:<br>
&gt; &gt;&gt; Just a question is there switch in the configure to switch back to the old pbs_iff behaviour?<br>
&gt; &gt;<br>
&gt; &gt; What old pbs_iff behaviour? The unix domain socket code has been there since the 2.1.x days.<br>
&gt; &gt;<br>
&gt;<br>
&gt; Garrick can you explain why our 2.1.11 pbs utilities use the &#39;pbs_iff&#39; interface to communicate with the pbs_server if they run on the node where the pbs_server is started?  We do not have any problems because a child is created and pbs_server can accept connections again. So in this installation<br>

&gt; the /tmp/.torque-unix is not used at all or has it a different name?<br>
&gt;<br>
<br>
I can&#39;t say that I know what is going on over there.<br>
<br>
<br>
&gt; When we run the same utitlies on a 2.4.7 installation the /tmp/.torque-unix is used and no child created.  The problem might be that the server  only handles one connection when /tmp/.torque-unix is used. So when i do i pbs_connect() an let it linger it will eventually timeout, but the pbs_server does not accept connections anymore till the timeout.<br>

&gt;<br>
&gt; That is why i asked if we can use the pbs_iff interface on the pbs_server again!!!<br>
<br>
./configure --disable-unixsockets<br>
<br>
Note that, what I wrote it, the unix socket support was a huge performance<br>
boost and didn&#39;t suck up lots of privileged ports. But I can&#39;t comment on what<br>
happened to it in the 2.4.x branch.<br>
<br>
<br>
&gt; To trigger is it easy. Just use pbs_connect() and do not close it. We have tested it on:<br>
&gt;   - debian lenny<br>
&gt;   - centos 5<br>
<br>
wait... I thought you were having a problem with the basic stuff like qstat? Those always immediately exit.<br>
<br>
I may have been misunderstanding the problem all along.<br>
<br>
<br>
&gt; -------------------------------<br>
&gt; If Found the problem on the pbs_server:<br>
&gt;   - /var/spool/torque/server_name<br>
&gt;<br>
&gt; If this contains a name that is in /etc/hosts it uses the /tmp/.torque-unix mechanism that causes the problem. If is defined a name that must be &#39;resolved&#39; other then /etc/hosts it will use the pbs_iff interface,  this has no problem because a child process is created.<br>

&gt;<br>
&gt; So the temporary solution is to use a name that must be resolved by DNS.<br>
<br>
No, it has nothing to do with DNS. Torque has no idea how a name is found. The<br>
lower-level system libs do that.<br>
<br>
If you look at the client lib code, there is a comparison after the name lookup<br>
against localhost and the server name.<br>
<br>
src/lib/Libifl/pbsD_connect.c:<br>
#ifdef ENABLE_UNIX_SOCKETS<br>
  /* determine if we want to use unix domain socket */<br>
<br>
  if (!strcmp(server, &quot;localhost&quot;))<br>
    use_unixsock = 1;<br>
  else if ((gethostname(hnamebuf, sizeof(hnamebuf) - 1) == 0) &amp;&amp; !strcmp(hnamebuf, server))<br>
    use_unixsock = 1;<br>
<br>
<br>
<br>
&gt; The question is can the unix domain socket handle more the one connection?<br>
<br>
It certainly should. It is just a different transport layer. This is the first<br>
time I&#39;ve heard a complaint.<br>
<br>
<br>
--<br>
Garrick Staples, GNU/Linux HPCC SysAdmin<br>
University of Southern California<br>
<br>
Life is Good!<br>
-------------- next part --------------<br>
A non-text attachment was scrubbed...<br>
Name: not available<br>
Type: application/pgp-signature<br>
Size: 189 bytes<br>
Desc: not available<br>
Url : <a href="http://www.supercluster.org/pipermail/torqueusers/attachments/20100429/2db1a8e1/attachment.bin" target="_blank">http://www.supercluster.org/pipermail/torqueusers/attachments/20100429/2db1a8e1/attachment.bin</a><br>

<br>
------------------------------<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
<br>
End of torqueusers Digest, Vol 69, Issue 28<br>
*******************************************<br>
</blockquote></div><br><br clear="all"><br>-- <br>With Regards,<br>Alap Pandya <br>