<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">Hi,<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I have compiled torque 3.0.4 with NUMA support per this document.<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal"><a href="http://www.clusterresources.com/torquedocs21/1.7torqueonnuma.shtml">http://www.clusterresources.com/torquedocs21/1.7torqueonnuma.shtml</a><o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I have created the server_priv/nodes and mom_priv/mom.layout file<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Here are the versions of software:<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">[root@node11 bin]# pbs_mom -v<o:p></o:p></p>
<p class="MsoNormal">version: 3.0.4<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">[root@mgt1 server_priv]# pbs_server -v<o:p></o:p></p>
<p class="MsoNormal">version: 3.0.4<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">lstopo shows:<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">[root@node11 bin]# ./lstopo<o:p></o:p></p>
<p class="MsoNormal">Machine (24GB)<o:p></o:p></p>
<p class="MsoNormal">&nbsp; NUMANode L#0 (P#0 12GB) &#43; Socket L#0 &#43; L3 L#0 (12MB)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#0 (256KB) &#43; L1 L#0 (32KB) &#43; Core L#0 &#43; PU L#0 (P#0)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#1 (256KB) &#43; L1 L#1 (32KB) &#43; Core L#1 &#43; PU L#1 (P#1)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#2 (256KB) &#43; L1 L#2 (32KB) &#43; Core L#2 &#43; PU L#2 (P#2)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#3 (256KB) &#43; L1 L#3 (32KB) &#43; Core L#3 &#43; PU L#3 (P#3)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#4 (256KB) &#43; L1 L#4 (32KB) &#43; Core L#4 &#43; PU L#4 (P#4)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#5 (256KB) &#43; L1 L#5 (32KB) &#43; Core L#5 &#43; PU L#5 (P#5)<o:p></o:p></p>
<p class="MsoNormal">&nbsp; NUMANode L#1 (P#1 12GB) &#43; Socket L#1 &#43; L3 L#1 (12MB)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#6 (256KB) &#43; L1 L#6 (32KB) &#43; Core L#6 &#43; PU L#6 (P#6)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#7 (256KB) &#43; L1 L#7 (32KB) &#43; Core L#7 &#43; PU L#7 (P#7)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#8 (256KB) &#43; L1 L#8 (32KB) &#43; Core L#8 &#43; PU L#8 (P#8)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#9 (256KB) &#43; L1 L#9 (32KB) &#43; Core L#9 &#43; PU L#9 (P#9)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#10 (256KB) &#43; L1 L#10 (32KB) &#43; Core L#10 &#43; PU L#10 (P#10)<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp; L2 L#11 (256KB) &#43; L1 L#11 (32KB) &#43; Core L#11 &#43; PU L#11 (P#11)<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Mom.layout:<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">cpus=0-5&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mem=0<o:p></o:p></p>
<p class="MsoNormal">cpus=6-11&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mem=1<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">server_priv/nodes:<o:p></o:p></p>
<p class="MsoNormal">node11 num_numa_nodes=2 compute<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I restart pbs_server on management node and pbs_mom on node11.<o:p></o:p></p>
<p class="MsoNormal">pbsnodes &#8211;a &nbsp;shows<br>
<br>
node11-0<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; state = down<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; np = 0<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; properties = compute<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; ntype = cluster<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; mom_service_port = 15002<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; mom_manager_port = 15003<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; gpus = 0<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">node11-1<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; state = down<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; np = 0<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; properties = compute<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; ntype = cluster<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; mom_service_port = 15002<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; mom_manager_port = 15003<o:p></o:p></p>
<p class="MsoNormal">&nbsp;&nbsp;&nbsp;&nbsp; gpus = 0<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">mom_log on node11 has:<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;Log;Log opened<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 3.0.4, loglevel = 0<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;setpbsserver;mgt1<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;mom_server_add;server mgt1 added<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;setremchkptdirlist;added RemChkptDir[0] '/fastscratch/tmp'<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;settmpdir;/fastscratch/tmp<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;setloglevel;7<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;read_config;processing config line '$usecp *:/home /home<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;usecp;*:/home /home<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;read_config;processing config line '$usecp *:/scratch /scratch<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;usecp;*:/scratch /scratch<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;read_config;processing config line '$spool_as_final_name true<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;spoolasfinalname;true<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;n/a;initialize;independent<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;n/a;mom_open_poll;started<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0080;&nbsp;&nbsp; pbs_mom;Svr;mom_get_sample;proc_array load started<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0080;&nbsp;&nbsp; pbs_mom;n/a;mom_get_sample;proc_array loaded - nproc=202<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0080;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;before init_abort_jobs<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0001;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;init_abort_jobs: recover=2<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;Is up<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;setup_program_environment;MOM executable path and mtime at launch: /usr/sbin/pbs_mom 1334684029<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 3.0.4, loglevel = 7<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;checking for old pbs_mom logs in dir '/var/spool/torque/mom_logs' (older than 1 days)<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;n/a;mom_server_open_stream;mom_server_open_stream: trying to open RPP conn to mgt1 port 15001<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;n/a;mom_server_open_stream;mom_server_open_stream: added connection to mgt1 port 15001<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0002;&nbsp;&nbsp; pbs_mom;n/a;mom_server_check_connection;sending hello to server mgt1<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0008;&nbsp;&nbsp; pbs_mom;Svr;mom_server_send_hello;mom_server_send_hello<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:01;0008;&nbsp;&nbsp; pbs_mom;Svr;mom_server_send_hello;mom_server_send_hello done. Sent count = 1<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:03;0008;&nbsp;&nbsp; pbs_mom;Job;do_rpp;got an inter-server request<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:03;0001;&nbsp;&nbsp; pbs_mom;Job;is_request;stream 0 version 2<o:p></o:p></p>
<p class="MsoNormal">04/17/2012 19:45:03;0001;&nbsp;&nbsp; pbs_mom;Job;is_request;command 2, &quot;CLUSTER_ADDRS&quot;, received<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">My problem as illustrated from the pbsnodes command above is that node11 is down.&nbsp; And running strace on the pbs_mom process does not indicate any access to the mom.layout file?&nbsp;
<br>
<br>
So did I really compile NUMA support?&nbsp; I can see references to NUMA in the Makefile for torque and the config.log definitely has the right parameters:<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">&nbsp; $ ./configure --prefix=/usr --with-blcr=/usr --enable-numa-support --disable-gui --enable-blcr --with-default-server=mgt1 --with-servchkptdir=/fastscratch/tmp --with-tmpdir=/fastscratch/tmp<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Can anyone provide further illumination on my already dark dreary day?<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Thanks,<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Randall Svancara<o:p></o:p></p>
<p class="MsoNormal">High Performance Computing Systems Administrator<o:p></o:p></p>
<p class="MsoNormal">Washington State University<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</body>
</html>