<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>Hello,<div><br></div><div>Thanks for your post. I confirm 4.1.6.h1 (which was 4.1.6.1 during a short time... why "h"1 ?) version have no compilation error.</div><div>But cpuset/hwloc is in the same state for me.<br><br><div>&gt; Subject: Re: [torqueusers]  Need help with numa/cpusetþ<br>&gt; From: dgottlieb@exchange.asc.edu<br>&gt; Date: Mon, 24 Jun 2013 09:41:19 -0500<br>&gt; CC: torqueusers@supercluster.org<br>&gt; To: francois.prudhomme@hotmail.fr<br>&gt; <br>&gt; FYI,<br>&gt; <br>&gt; The "catch_child.c:1973: error: ‘sisters’ undeclared" bug they introduced in 4.1.6.  Support said there'd be a 4.1.6.1   release to fix this, but no release yet.  Looks like there's a commit from a week ago in the 4.1.6.h1 branch in github.<br>&gt; <br>&gt; Derek Gottlieb<br>&gt; HPC Systems Analyst, CSC<br>&gt; Alabama Supercomputer Center<br>&gt; <br>&gt; 686 Discovery Dr., Huntsville, AL 35806<br>&gt; High Performance Computing | dgottlieb@asc.edu | www.asc.edu<br>&gt; <br>&gt; On Jun 12, 2013, at 2:42 PM, François P-L wrote:<br>&gt; <br>&gt; &gt; (sorry if this message appear 3 times... make many mistakes... :()<br>&gt; &gt; <br>&gt; &gt; Hello,<br>&gt; &gt; <br>&gt; &gt; I'm asking for help to use 2 things on my torque cluster :<br>&gt; &gt; - 1) Use of mom.layout for better use of my nodes<br>&gt; &gt; - 2) Use of cpuset<br>&gt; &gt; <br>&gt; &gt; Actually, to do this, i'm using the 4.1.6 branch and configure with theses options :<br>&gt; &gt; --prefix=/usr<br>&gt; &gt; --enable-syslog<br>&gt; &gt; --disable-gui<br>&gt; &gt; --with-sched=no<br>&gt; &gt; --enable-nvidia-gpus<br>&gt; &gt; --enable-numa-support<br>&gt; &gt; --enable-cpuset<br>&gt; &gt; --with-tcp-retry-limit=5<br>&gt; &gt; <br>&gt; &gt; I'm using version 1.7.1 of hwloc on a Debian squeeze with 3.2.0-0.bpo.3-amd64 kernel<br>&gt; &gt; <br>&gt; &gt; The only problem during make was :<br>&gt; &gt; catch_child.c:1973: error: ‘sisters’ undeclared (first use in this function)<br>&gt; &gt; catch_child.c:1973: error: (Each undeclared identifier is reported only once<br>&gt; &gt; catch_child.c:1973: error: for each function it appears in.)<br>&gt; &gt; <br>&gt; &gt; Don't know why there is a condition to declare this identifier between lines 1685-1689... i deleted the #ifndef/#endif to correct this problem.<br>&gt; &gt; <br>&gt; &gt; I'm lauching all packages on a vm with 4 cpus and a very minimal config :<br>&gt; &gt; create queue batch<br>&gt; &gt; set queue batch queue_type = Execution<br>&gt; &gt; set queue batch resources_default.ncpus = 1<br>&gt; &gt; set queue batch resources_default.nodes = 1<br>&gt; &gt; set queue batch enabled = True<br>&gt; &gt; set queue batch started = True<br>&gt; &gt; set server acl_hosts = test2<br>&gt; &gt; set server default_queue = batch<br>&gt; &gt; set server log_events = 511<br>&gt; &gt; set server mail_from = adm<br>&gt; &gt; set server scheduler_iteration = 600<br>&gt; &gt; set server node_check_rate = 150<br>&gt; &gt; set server tcp_timeout = 300<br>&gt; &gt; set server job_stat_rate = 45<br>&gt; &gt; set server poll_jobs = True<br>&gt; &gt; set server mom_job_sync = True<br>&gt; &gt; set server next_job_number = 11<br>&gt; &gt; set server moab_array_compatible = True<br>&gt; &gt; <br>&gt; &gt; cat /var/spool/torque/server_priv/nodes<br>&gt; &gt; test2 np=4 num_node_boards=1<br>&gt; &gt; <br>&gt; &gt; cat /var/spool/torque/mom_priv/mom.layout<br>&gt; &gt; nodes=0<br>&gt; &gt; <br>&gt; &gt; (and maui for scheduling)<br>&gt; &gt; <br>&gt; &gt; <br>&gt; &gt; When all is lauched, its work... but hwloc don't do his job... if i launch a load generator as "stress" for 2 cpus (stress -t 120 -c 2) with a qsub requiring 1 cpus :<br>&gt; &gt; - /dev/cpuset/torque/"jobid"/ is well created but cpus file is empty<br>&gt; &gt; - A look with htop show a load on 2 cpus<br>&gt; &gt; - /dev/cpuset/torque/cpus is empty<br>&gt; &gt; - "lstopo --ps" don't show anything...<br>&gt; &gt; <br>&gt; &gt; Maybe a configuration problem ? When i look at mom logs :<br>&gt; &gt; 06/12/2013 17:00:31;0002;   pbs_mom.4754;Svr;pbs_mom;Torque Mom Version = 4.1.6, loglevel = 0<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;Svr;setup_program_environment;machine topology contains 0 memory nodes, 4 cpus<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;node;read_layout_file;nodeboard  0: 1 NUMA nodes: 0<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;node;read_layout_file;Setting up this mom to function as 1 numa nodes<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;node;setup_nodeboards;nodeboard  0: 0 cpus (), 1 mems (0)<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;Svr;init_torque_cpuset;Init cpuset /dev/cpuset/torque<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;Svr;init_torque_cpuset;setting cpus =<br>&gt; &gt; 06/12/2013 17:00:36;0002;   pbs_mom.4754;Svr;init_torque_cpuset;setting mems = 0<br>&gt; &gt; <br>&gt; &gt; Why "setting cpus" is empty ?<br>&gt; &gt; <br>&gt; &gt; Tests with a "hwloc-bind core:0 -- stress -t 120 -c 2 &amp;" working well.<br>&gt; &gt; <br>&gt; &gt; <br>&gt; &gt; Anyone have an idea ?<br>&gt; &gt; <br>&gt; &gt; Many thanks in advance :)<br>&gt; &gt; <br>&gt; &gt; -- <br>&gt; &gt; This message has been scanned for viruses and <br>&gt; &gt; dangerous content by MailScanner, and is <br>&gt; &gt; believed to be clean. _______________________________________________<br>&gt; &gt; torqueusers mailing list<br>&gt; &gt; torqueusers@supercluster.org<br>&gt; &gt; http://www.supercluster.org/mailman/listinfo/torqueusers<br>&gt; <br></div></div>                                               </div></body>
</html>