Randall,<div><br></div><div>After looking closer at your logs, it appears that the pbs_mom binary wasn&#39;t numa enabled. If it were, you&#39;d have a message saying:</div><div><br></div><div>Setting up this mom to function as %d numa nodes - in your case that %d would be a 2.</div>
<div><br></div><div>or you&#39;d have one of these error messages:</div><div><br></div><div>Malformed mom.layout file, line:\n%s\n</div><div>Unable to read the layout file in %s</div><div><br></div><div>David<br><br><div class="gmail_quote">
On Wed, Apr 18, 2012 at 1:26 PM, Svancara, Randall <span dir="ltr">&lt;<a href="mailto:rsvancara@wsu.edu">rsvancara@wsu.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">






<div lang="EN-US" link="blue" vlink="purple">
<div>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">Hey, good to know that I did do something correct.  I have validated the mom.layout file is in /var/spool/torque/mom_priv/mom.layout.<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rw-r--r-- 1 root root    185 Apr 17 19:44 config<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxr-xr-x 1 root root    708 Apr  5  2011 epilogue<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxrwxrwx 1 root root    708 Apr  5  2011 epilogue.sh<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  0 drwxr-x--x 2 root root     40 Apr 17 10:33 jobs<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxr--r-- 1 root root     31 Apr 17 19:23 mom.layout<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxr--r-- 1 root root     50 Apr 17 19:20 mom.layout_bak<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rw-r--r-- 1 root root     32 Apr 17 15:26 mom.layout_old<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rw-r--r-- 1 root root      7 Apr 17 19:45 mom.lock<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxr-xr-x 1 root root    527 Apr 26  2011 prologue<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxrwxrwx 1 root root    527 Apr  5  2011 prologue.sh<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">  4 -rwxr-xr-x 1 root root    203 Apr  5  2011 setperms.sh<u></u><u></u></span></p><div class="im">

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">Thanks,<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">Randall Svancara<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">High Performance Computing Systems Administrator<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">Washington State University<u></u><u></u></span></p>
</div><p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d"><a href="tel:509-335-3039" value="+15093353039" target="_blank">509-335-3039</a></span><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> <a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a> [mailto:<a href="mailto:torqueusers-bounces@supercluster.org" target="_blank">torqueusers-bounces@supercluster.org</a>]
<b>On Behalf Of </b>David Beer<br>
<b>Sent:</b> Wednesday, April 18, 2012 12:16 PM<br>
<b>To:</b> Torque Users Mailing List<br>
<b>Subject:</b> Re: [torqueusers] NUMA -- A first try<u></u><u></u></span></p><div><div class="h5">
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Randall,<u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">You did compile numa support. You can know this because you get node11-0 and node11-1 in your pbsnodes output. Is your mom.layout file in the correct location? It should be in mom_priv/mom.layout.<u></u><u></u></p>

</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">David<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<p class="MsoNormal">On Wed, Apr 18, 2012 at 9:44 AM, Svancara, Randall &lt;<a href="mailto:rsvancara@wsu.edu" target="_blank">rsvancara@wsu.edu</a>&gt; wrote:<u></u><u></u></p>
<div>
<div>
<p class="MsoNormal">Hi,<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">I have compiled torque 3.0.4 with NUMA support per this document.<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal"><a href="http://www.clusterresources.com/torquedocs21/1.7torqueonnuma.shtml" target="_blank">http://www.clusterresources.com/torquedocs21/1.7torqueonnuma.shtml</a><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">I have created the server_priv/nodes and mom_priv/mom.layout file<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Here are the versions of software:<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">[root@node11 bin]# pbs_mom -v<u></u><u></u></p>
<p class="MsoNormal">version: 3.0.4<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">[root@mgt1 server_priv]# pbs_server -v<u></u><u></u></p>
<p class="MsoNormal">version: 3.0.4<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">lstopo shows:<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">[root@node11 bin]# ./lstopo<u></u><u></u></p>
<p class="MsoNormal">Machine (24GB)<u></u><u></u></p>
<p class="MsoNormal">  NUMANode L#0 (P#0 12GB) + Socket L#0 + L3 L#0 (12MB)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#0 (256KB) + L1 L#0 (32KB) + Core L#0 + PU L#0 (P#0)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#1 (256KB) + L1 L#1 (32KB) + Core L#1 + PU L#1 (P#1)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#2 (256KB) + L1 L#2 (32KB) + Core L#2 + PU L#2 (P#2)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#3 (256KB) + L1 L#3 (32KB) + Core L#3 + PU L#3 (P#3)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#4 (256KB) + L1 L#4 (32KB) + Core L#4 + PU L#4 (P#4)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#5 (256KB) + L1 L#5 (32KB) + Core L#5 + PU L#5 (P#5)<u></u><u></u></p>
<p class="MsoNormal">  NUMANode L#1 (P#1 12GB) + Socket L#1 + L3 L#1 (12MB)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#6 (256KB) + L1 L#6 (32KB) + Core L#6 + PU L#6 (P#6)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#7 (256KB) + L1 L#7 (32KB) + Core L#7 + PU L#7 (P#7)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#8 (256KB) + L1 L#8 (32KB) + Core L#8 + PU L#8 (P#8)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#9 (256KB) + L1 L#9 (32KB) + Core L#9 + PU L#9 (P#9)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#10 (256KB) + L1 L#10 (32KB) + Core L#10 + PU L#10 (P#10)<u></u><u></u></p>
<p class="MsoNormal">    L2 L#11 (256KB) + L1 L#11 (32KB) + Core L#11 + PU L#11 (P#11)<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Mom.layout:<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">cpus=0-5        mem=0<u></u><u></u></p>
<p class="MsoNormal">cpus=6-11       mem=1<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">server_priv/nodes:<u></u><u></u></p>
<p class="MsoNormal">node11 num_numa_nodes=2 compute<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">I restart pbs_server on management node and pbs_mom on node11.<u></u><u></u></p>
<p class="MsoNormal">pbsnodes –a  shows<br>
<br>
node11-0<u></u><u></u></p>
<p class="MsoNormal">     state = down<u></u><u></u></p>
<p class="MsoNormal">     np = 0<u></u><u></u></p>
<p class="MsoNormal">     properties = compute<u></u><u></u></p>
<p class="MsoNormal">     ntype = cluster<u></u><u></u></p>
<p class="MsoNormal">     mom_service_port = 15002<u></u><u></u></p>
<p class="MsoNormal">     mom_manager_port = 15003<u></u><u></u></p>
<p class="MsoNormal">     gpus = 0<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">node11-1<u></u><u></u></p>
<p class="MsoNormal">     state = down<u></u><u></u></p>
<p class="MsoNormal">     np = 0<u></u><u></u></p>
<p class="MsoNormal">     properties = compute<u></u><u></u></p>
<p class="MsoNormal">     ntype = cluster<u></u><u></u></p>
<p class="MsoNormal">     mom_service_port = 15002<u></u><u></u></p>
<p class="MsoNormal">     mom_manager_port = 15003<u></u><u></u></p>
<p class="MsoNormal">     gpus = 0<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">mom_log on node11 has:<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;Log;Log opened<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 3.0.4, loglevel = 0<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;setpbsserver;mgt1<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;mom_server_add;server mgt1 added<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;setremchkptdirlist;added RemChkptDir[0] &#39;/fastscratch/tmp&#39;<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;settmpdir;/fastscratch/tmp<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;setloglevel;7<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;read_config;processing config line &#39;$usecp *:/home /home<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;usecp;*:/home /home<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;read_config;processing config line &#39;$usecp *:/scratch /scratch<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;usecp;*:/scratch /scratch<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;read_config;processing config line &#39;$spool_as_final_name true<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;spoolasfinalname;true<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;n/a;initialize;independent<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;n/a;mom_open_poll;started<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0080;   pbs_mom;Svr;mom_get_sample;proc_array load started<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0080;   pbs_mom;n/a;mom_get_sample;proc_array loaded - nproc=202<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0080;   pbs_mom;Svr;pbs_mom;before init_abort_jobs<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0001;   pbs_mom;Svr;pbs_mom;init_abort_jobs: recover=2<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;pbs_mom;Is up<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;setup_program_environment;MOM executable path and mtime at launch: /usr/sbin/pbs_mom 1334684029<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 3.0.4, loglevel = 7<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;Svr;pbs_mom;checking for old pbs_mom logs in dir &#39;/var/spool/torque/mom_logs&#39; (older than 1 days)<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;n/a;mom_server_open_stream;mom_server_open_stream: trying to open RPP conn to mgt1 port 15001<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;n/a;mom_server_open_stream;mom_server_open_stream: added connection to mgt1 port 15001<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;   pbs_mom;n/a;mom_server_check_connection;sending hello to server mgt1<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0008;   pbs_mom;Svr;mom_server_send_hello;mom_server_send_hello<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:01;0008;   pbs_mom;Svr;mom_server_send_hello;mom_server_send_hello done. Sent count = 1<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:03;0008;   pbs_mom;Job;do_rpp;got an inter-server request<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:03;0001;   pbs_mom;Job;is_request;stream 0 version 2<u></u><u></u></p>
<p class="MsoNormal">04/17/2012 19:45:03;0001;   pbs_mom;Job;is_request;command 2, &quot;CLUSTER_ADDRS&quot;, received<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">My problem as illustrated from the pbsnodes command above is that node11 is down.  And running strace on the pbs_mom process does not indicate any access to the mom.layout file? 
<br>
<br>
So did I really compile NUMA support?  I can see references to NUMA in the Makefile for torque and the config.log definitely has the right parameters:<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">  $ ./configure --prefix=/usr --with-blcr=/usr --enable-numa-support --disable-gui --enable-blcr --with-default-server=mgt1 --with-servchkptdir=/fastscratch/tmp --with-tmpdir=/fastscratch/tmp<u></u><u></u></p>

<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Can anyone provide further illumination on my already dark dreary day?<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Thanks,<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Randall Svancara<u></u><u></u></p>
<p class="MsoNormal">High Performance Computing Systems Administrator<u></u><u></u></p>
<p class="MsoNormal">Washington State University<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
</div>
</div>
<p class="MsoNormal" style="margin-bottom:12.0pt"><br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><u></u><u></u></p>
</div>
<p class="MsoNormal"><br>
<br clear="all">
<u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<p class="MsoNormal">-- <u></u><u></u></p>
<div>
<p class="MsoNormal">David Beer | Software Engineer<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">Adaptive Computing<u></u><u></u></p>
</div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
</div></div></div>
</div>

<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>
</div>