<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=windows-1256">
<style id="owaParaStyle" type="text/css">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body ocsi="0" fpstyle="1">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;"><br>
<div>Hi,<br>
<br>
I think I've trigguered a realy wired bug in torque.<br>
I've built torque with blcr support.<br>
<br>
If the blcr module is not loaded on a node where a job is scheduled to run, the job hangs with various errors ranging from (nothing) to unable to setup IO or the like.<br>
<br>
What helped me is that pbsdsh issued a warning in the job error log and once I fixed the blcr issue (started the blcr service that was reponsible of modprobing the module), the whole pbs system was running fine.<br>
<br>
I'm not skilled enough to find the exact problem, but if that can help, at least it's better than nothing.<br>
<br>
See below the --about (config options) and after that, the log from pbs_mom on the executing node:<br>
<br>
<br>
/opt/pbs/sbin/pbs_server --about<br>
package:&nbsp;&nbsp;&nbsp;&nbsp; torque 4.1.4<br>
sourcedir:&nbsp;&nbsp; /root/rpmbuild/BUILD/torque-4.1.4<br>
configure:&nbsp;&nbsp;&nbsp; '--prefix=/opt/pbs' '--mandir=/opt/pbs/man' '--libdir=/opt/pbs/lib64' '--includedir=/opt/pbs/include' '--with-server-home=/var/lib/torque' '--with-pam=/lib64/security' '--with-sendmail=/usr/sbin/sendmail' '--with-default-server=pbs_oscar' '--with-server-name-file=server_name'
 '--enable-gui' '--enable-syslog' '--with-tcl' '--enable-rpp' '--with-rcp=scp' '--enable-drmaa' '--enable-blcr' '--enable-nvidia-gpus' '--enable-munge-auth' 'CC=' 'CFLAGS=' 'LDFLAGS=' 'PKG_CONFIG_PATH=/usr/lib64/pkgconfig:/usr/share/pkgconfig'<br>
buildcflags:&nbsp; -D_LARGEFILE64_SOURCE -DMUNGE_AUTH<br>
buildhost:&nbsp;&nbsp; is005045.intra.cea.fr<br>
builddate:&nbsp;&nbsp; Tue Dec 11 14:06:01 CET 2012<br>
builddir:&nbsp;&nbsp;&nbsp; /root/rpmbuild/BUILD/torque-4.1.4<br>
builduser:&nbsp;&nbsp; root<br>
installdir:&nbsp; /opt/pbs<br>
serverhome:&nbsp; /var/lib/torque<br>
version:&nbsp;&nbsp;&nbsp;&nbsp; 4.1.4-snap.201211201307<br>
<br>
[...] (mom_log on oscarnode49)<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;req_commit:starting job execution<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;0: oscarnode49/11<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;1: oscarnode49/10<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;2: oscarnode49/9<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;3: oscarnode49/8<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;4: oscarnode49/7<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;5: oscarnode49/6<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;6: oscarnode49/5<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;7: oscarnode49/4<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;8: oscarnode49/3<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;9: oscarnode49/2<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;10: oscarnode49/1<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;11: oscarnode49/0<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;12: oscarnode48/11<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;13: oscarnode48/10<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;14: oscarnode48/9<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;15: oscarnode48/8<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;16: oscarnode48/7<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;17: oscarnode48/6<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;18: oscarnode48/5<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;19: oscarnode48/4<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;20: oscarnode48/3<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;21: oscarnode48/2<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;22: oscarnode48/1<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;23: oscarnode48/0<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;24: oscarnode47/5<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;25: oscarnode47/4<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;26: oscarnode47/3<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;27: oscarnode47/2<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;28: oscarnode47/1<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;29: oscarnode47/0<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;job_nodes;job: 15.is003274.intra.cea.fr numnodes=3 numvnod=30<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Svr;pbs_mom;LOG_DEBUG::init_groups, pre-sigprocmask<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Svr;pbs_mom;LOG_DEBUG::init_groups, post-initgroups<br>
12/11/2012 15:06:11;0002;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;allocate_demux_sockets: stdout: 10:56644&nbsp; stderr: 11:43813<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;start_exec: total wire-up time for job 0.2247<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Svr;pbs_mom;LOG_DEBUG::mom_checkpoint_job_has_checkpoint, FALSE<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;about to fork child which will become job<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;phase 2 of job launch successfully completed<br>
12/11/2012 15:06:11;0002;&nbsp;&nbsp; pbs_mom.3977;n/a;mom_close_poll;entered<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;task/session info loaded<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;TMomFinalizeJob3;Job 15.is003274.intra.cea.fr read start return code=0 session=3977<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;saving task (TMomFinalizeJob3)<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Svr;task_save;saving task in /var/lib/torque/mom_priv/jobs/15.is003274.intra.cea.fr.TK<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;TMomFinalizeJob3;job 15.is003274.intra.cea.fr started, pid = 3977<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;exec_job_on_ms:job successfully started<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;req_commit:job execution started<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 8 addr 127.0.0.1:43387<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_request: job 15.is003274.intra.cea.fr cookie CAAFC3D6302C31FCF9BD92DE9205655D task 1 com 100 event 1<br>
12/11/2012 15:06:11;0002;&nbsp;&nbsp; pbs_mom.3661;node;close_conn;Connection 8 - func 414387<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;matching task located, marking interface closed<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 8 addr 127.0.0.1:43388<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_request: job 15.is003274.intra.cea.fr cookie CAAFC3D6302C31FCF9BD92DE9205655D task 1 com 102 event 2<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_spawn_request: SPAWN 15.is003274.intra.cea.fr on node 0<br>
12/11/2012 15:06:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;saving task (TM_SPAWN)<br>
12/11/2012 15:06:11;0008;&nbsp;&nbsp; pbs_mom.3661;Svr;task_save;saving task in /var/lib/torque/mom_priv/jobs/15.is003274.intra.cea.fr.TK<br>
12/11/2012 15:06:11;0002;&nbsp;&nbsp; pbs_mom.4000;n/a;mom_close_poll;entered<br>
12/11/2012 15:06:31;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;task not started, 'hostname', stdio setup failed (see syslog)<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;scan_for_terminated;entered<br>
12/11/2012 15:06:31;0080;&nbsp;&nbsp; pbs_mom.3661;Svr;mom_get_sample;proc_array load started<br>
12/11/2012 15:06:31;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_get_sample;proc_array loaded - nproc=285<br>
12/11/2012 15:06:31;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;proc_array loop start - jobid = 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;cput_sum: session=3977 pid=3977 cputime=0 (cputfactor=1.000000)<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;cput_sum: session=3977 pid=3998 cputime=0 (cputfactor=1.000000)<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;cput_sum: session=3977 pid=3999 cputime=0 (cputfactor=1.000000)<br>
12/11/2012 15:06:31;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;proc_array loop start - jobid = 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;mem_sum: session=3977 pid=3977 vsize=16019456 sum=16019456<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;mem_sum: session=3977 pid=3998 vsize=9412608 sum=25432064<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;mem_sum: session=3977 pid=3999 vsize=55603200 sum=81035264<br>
12/11/2012 15:06:31;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;proc_array loop start - jobid = 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;resi_sum: session=3977 pid=3977 rss=1708032 sum=1708032<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;resi_sum: session=3977 pid=3998 rss=1302528 sum=3010560<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;resi_sum: session=3977 pid=3999 rss=2523136 sum=5533696<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;scan_for_terminated;pid 4000 not tracked, statloc=65024, exitval=254<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;node;close_conn;Connection 8 - func 414387<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;matching task located, marking interface closed<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 8 addr 127.0.0.1:43399<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_request: job 15.is003274.intra.cea.fr cookie CAAFC3D6302C31FCF9BD92DE9205655D task 1 com 102 event 3<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_spawn_request: SPAWN 15.is003274.intra.cea.fr on node 1<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 10 addr 10.0.238.149:606<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.3661;Svr;im_request;connect from 10.0.238.149:606<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;im_request:rec req 'SPAWN_TASK' (3) for job 15.is003274.intra.cea.fr from 10.0.238.149:606 ev 3 task 1 cookie CAAFC3D6302C31FCF9BD92DE9205655D<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;INFO:&nbsp;&nbsp;&nbsp;&nbsp; received request 'SPAWN_TASK' from 10.0.238.149:606 for job '15.is003274.intra.cea.fr' (spawning task on node '0' with taskid=3, globid='none'<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;saving task (IM_SPAWN_TASK)<br>
12/11/2012 15:06:31;0008;&nbsp;&nbsp; pbs_mom.3661;Svr;task_save;saving task in /var/lib/torque/mom_priv/jobs/15.is003274.intra.cea.fr.TK<br>
12/11/2012 15:06:31;0002;&nbsp;&nbsp; pbs_mom.4001;n/a;mom_close_poll;entered<br>
12/11/2012 15:06:51;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;task not started, 'hostname', stdio setup failed (see syslog)<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;ERROR:&nbsp;&nbsp;&nbsp; received request 'SPAWN_TASK' from 10.0.238.149:606 for job '15.is003274.intra.cea.fr' (cannot start task)<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;scan_for_terminated;entered<br>
12/11/2012 15:06:51;0080;&nbsp;&nbsp; pbs_mom.3661;Svr;mom_get_sample;proc_array load started<br>
12/11/2012 15:06:51;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_get_sample;proc_array loaded - nproc=285<br>
12/11/2012 15:06:51;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;proc_array loop start - jobid = 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;cput_sum: session=3977 pid=3977 cputime=0 (cputfactor=1.000000)<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;cput_sum: session=3977 pid=3998 cputime=0 (cputfactor=1.000000)<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;cput_sum;cput_sum: session=3977 pid=3999 cputime=0 (cputfactor=1.000000)<br>
12/11/2012 15:06:51;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;proc_array loop start - jobid = 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;mem_sum: session=3977 pid=3977 vsize=16019456 sum=16019456<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;mem_sum: session=3977 pid=3998 vsize=9412608 sum=25432064<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mem_sum;mem_sum: session=3977 pid=3999 vsize=55603200 sum=81035264<br>
12/11/2012 15:06:51;0080;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;proc_array loop start - jobid = 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;resi_sum: session=3977 pid=3977 rss=1708032 sum=1708032<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;resi_sum: session=3977 pid=3998 rss=1302528 sum=3010560<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;resi_sum;resi_sum: session=3977 pid=3999 rss=2543616 sum=5554176<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;scan_for_terminated;pid 4001 not tracked, statloc=65024, exitval=254<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 10 addr 10.0.238.149:692<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;Svr;im_request;connect from 10.0.238.149:692<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;im_request:rec req 'ERROR' (99) for job 15.is003274.intra.cea.fr from 10.0.238.149:692 ev 3 task 1 cookie CAAFC3D6302C31FCF9BD92DE9205655D<br>
12/11/2012 15:06:51;0001;&nbsp;&nbsp; pbs_mom.3661;Svr;pbs_mom;LOG_ERROR::im_request, Response recieved from client 10.0.238.149:692 (15003) jobid 15.is003274.intra.cea.fr<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;im_request: REQUEST 3 15.is003274.intra.cea.fr returned ERROR 17000<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;node;close_conn;Connection 8 - func 414387<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;matching task located, marking interface closed<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 8 addr 127.0.0.1:43410<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_request: job 15.is003274.intra.cea.fr cookie CAAFC3D6302C31FCF9BD92DE9205655D task 1 com 102 event 4<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;tm_spawn_request: SPAWN 15.is003274.intra.cea.fr on node 2<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;tcp_request;tcp_request: fd 10 addr 10.0.238.149:310<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.3661;Svr;im_request;connect from 10.0.238.149:310<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;im_request:rec req 'SPAWN_TASK' (3) for job 15.is003274.intra.cea.fr from 10.0.238.149:310 ev 4 task 1 cookie CAAFC3D6302C31FCF9BD92DE9205655D<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;INFO:&nbsp;&nbsp;&nbsp;&nbsp; received request 'SPAWN_TASK' from 10.0.238.149:310 for job '15.is003274.intra.cea.fr' (spawning task on node '0' with taskid=4, globid='none'<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;saving task (IM_SPAWN_TASK)<br>
12/11/2012 15:06:51;0008;&nbsp;&nbsp; pbs_mom.3661;Svr;task_save;saving task in /var/lib/torque/mom_priv/jobs/15.is003274.intra.cea.fr.TK<br>
12/11/2012 15:06:51;0002;&nbsp;&nbsp; pbs_mom.4002;n/a;mom_close_poll;entered<br>
12/11/2012 15:07:11;0001;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;task not started, 'hostname', stdio setup failed (see syslog)<br>
12/11/2012 15:07:11;0008;&nbsp;&nbsp; pbs_mom.3661;Job;15.is003274.intra.cea.fr;ERROR:&nbsp;&nbsp;&nbsp; received request 'SPAWN_TASK' from 10.0.238.149:310 for job '15.is003274.intra.cea.fr' (cannot start task)<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_server_all_update_stat;composing status update for server<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[0]: pid 2530 sid 2529<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[1]: pid 3977 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[2]: pid 3998 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[2]: pid 3999 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;nsessions=2<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[0]: pid 2530 sid 2529<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[1]: pid 3977 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[2]: pid 3998 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[2]: pid 3999 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;nsessions=2<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[0]: pid 2530 sid 2529<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[1]: pid 3977 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[2]: pid 3998 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;sessions[2]: pid 3999 sid 3977<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;sessions;nsessions=2<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;nusers;nusers[0]: pid 2530 uid 496<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;nusers;nusers[1]: pid 3977 uid 1116<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;nusers;nusers[2]: pid 3998 uid 1116<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;nusers;nusers[2]: pid 3999 uid 1116<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;nusers;nusers=2<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;totmem;totmem: total mem=51249725440<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;availmem;availmem: free mem=50474262528<br>
12/11/2012 15:07:11;0002;&nbsp;&nbsp; pbs_mom.3661;node;ncpus;ncpus=12<br>
12/11/2012 15:07:11;0001;&nbsp;&nbsp; pbs_mom.3661;Svr;pbs_mom;LOG_DEBUG::gpus, gpus: GPU cmd issued: nvidia-smi -q -x 2&gt;&amp;1<br>
12/11/2012 15:07:30;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_server_update_stat;mom_server_update_stat: sending to server &quot;opsys=linux&quot;<br>
12/11/2012 15:07:30;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_server_update_stat;mom_server_update_stat: sending to server &quot;uname=Linux oscarnode49 2.6.32-279.14.1.el6.x86_64 #1 SMP Tue Nov 6 23:43:09 UTC 2012 x86_64&quot;<br>
12/11/2012 15:07:30;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_server_update_stat;mom_server_update_stat: sending to server &quot;sessions=2529 3977&quot;<br>
12/11/2012 15:07:30;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_server_update_stat;mom_server_update_stat: sending to server &quot;nsessions=2&quot;<br>
12/11/2012 15:07:30;0002;&nbsp;&nbsp; pbs_mom.3661;n/a;mom_server_update_stat;mom_server_update_stat: sending to server &quot;nusers=2&quot;<br>
[...]<br>
<br>
Olivier.<br>
<br>
<div style="font-family:Tahoma; font-size:13px">
<div style="font-family:Tahoma; font-size:13px"><font face="Tahoma">-- <br>
&nbsp;&nbsp; Olivier LAHAYE<br>
&nbsp;&nbsp; CEA DRT/LIST/DCSI/DIR</font><br>
</div>
</div>
</div>
</div>
</body>
</html>