Hello,<div><br></div><div>I am not an expert in torque/pbs so I hope my message will be clear enough.</div><div><br></div><div>I have just installed a new torque server/mom compiled from source using command:</div><div>    ./configure --with-server-home=/var/spool/pbs --prefix=/usr</div>
<div>     make rpm</div><div><br></div><div>The server is running on a scientific linux 4.6 32bit ( kernel 2.6.9-89.31.1.EL.cernsmp ) and the client is running on a Scientific Linux 5.5 64bit ( kernel 2.6.18-194.26.1.el5 ).</div>
<div>Of course server and client were compiled on the machine it running.</div><div><br></div><div>I use this pbs server with the lcg middleware for Computing Element.</div><div><br></div><div>For the moment only one worker node is used to try to find the problem.</div>
<div><br></div><div>A simple manual job submission is working find but when a job arrive through the grid, the pbs crash.</div><div><br></div><div>The configuration for pbs is generated automatically by the installation of the middleware but I tried to put a basic configuration as following:</div>
<div><div>#</div><div># Create queues and set their attributes.</div><div>#</div><div>#</div><div># Create and define queue alice</div><div>#</div><div>create queue alice</div><div>set queue alice queue_type = Execution</div>
<div>set queue alice acl_group_enable = True</div><div>set queue alice acl_groups = alice</div><div>set queue alice acl_groups += alicesgm</div><div>set queue alice enabled = True</div><div>set queue alice started = True</div>
<div>#</div><div># Create and define queue ops</div><div>#</div><div>create queue ops</div><div>set queue ops queue_type = Execution</div><div>set queue ops acl_group_enable = True</div><div>set queue ops acl_groups = ops</div>
<div>set queue ops acl_groups += opssgm</div><div>set queue ops enabled = True</div><div>set queue ops started = True</div><div>#</div><div># Create and define queue dteam</div><div>#</div><div>create queue dteam</div><div>
set queue dteam queue_type = Execution</div><div>set queue dteam acl_group_enable = True</div><div>set queue dteam acl_groups = dteam</div><div>set queue dteam acl_groups += dteamsgm</div><div>set queue dteam enabled = True</div>
<div>set queue dteam started = True</div></div><div>#</div><div><div># Set server attributes.</div><div>#</div><div>set server scheduling = True</div><div>set server acl_host_enable = False</div><div>set server acl_hosts = <a href="http://ce02.sdfarm.kr">ce02.sdfarm.kr</a></div>
<div>set server managers = <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a></div><div>set server operators = <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a></div><div>set server default_queue = dteam</div>
<div>set server log_events = 511</div><div>set server mail_from = adm</div><div>set server query_other_jobs = True</div><div>set server scheduler_iteration = 600</div><div>set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div>
<div>set server default_node = lcgpro</div><div>set server node_pack = False</div><div>set server log_level = 7</div><div>set server kill_delay = 10</div><div>set server next_job_number = 204</div></div><div><br></div><div>
nodes file contain only one line:</div><div><br></div><div><a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a> np=8 lcgpro ops dteam alice</div><div><br></div><div><br></div><div>pbs logs before crash by job 240:</div>
<div><br></div><div><br></div><div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request ReadyToCommit on sd=11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;ready to commit job</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type ReadyToCommit on socket 11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;ready to commit job completed</div>
<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command Commit from dteam018</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type Commit request received from <a href="mailto:dteam018@ce02.sdfarm.kr">dteam018@ce02.sdfarm.kr</a>, sock=11</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request Commit on sd=11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;committing job</div>
<div>12/08/2010 15:06:04;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> state from TRANSIT-TRANSICM to QUEUED-PRESTAGEIN (1-11)</div><div>12/08/2010 15:06:04;0100;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;enqueuing into dteam, state 1 hop 1</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type Commit on socket 11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;Reply sent for request type Commit on socket 11</div>
<div>12/08/2010 15:06:04;0040;PBS_Server;Svr;<a href="http://ce02.sdfarm.kr">ce02.sdfarm.kr</a>;Scheduler was sent the command new</div><div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command Disconnect from dteam018</div>
<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command StatusNode from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type StatusNode request received from <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a>, sock=10</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request StatusNode on sd=10</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;req_stat_node;entered</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusNode on socket 10</div>
<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command StatusQueue from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type StatusQueue request received from <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a>, sock=10</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request StatusQueue on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusQueue on socket 10</div>
<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command StatusJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type StatusJob request received from <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a>, sock=10</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request StatusJob on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusJob on socket 10</div><div>
12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command ModifyJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a>, sock=10</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request ModifyJob on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;attr Resource_List modified</div>
<div>12/08/2010 15:06:04;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> state from QUEUED-PRESTAGEIN to QUEUED-PRESTAGEIN (1-11)</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;Job Modified at request of <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a></div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type ModifyJob on socket 10</div><div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command RunJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type RunJob request received from <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a>, sock=10</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request RunJob on sd=10</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;set_nodes;allocating nodes for job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> with node expression &#39;<a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a>&#39;</div>
<div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;entered spec=<a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a></div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;job allocation debug: 1 requested, 8 svr_clnodes, 1 svr_totnodes</div>
<div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;job allocation debug(2): 1 requested, 1 svr_numnodes</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;job allocation debug(3): returning 1 requested</div><div>
12/08/2010 15:06:04;0040;PBS_Server;Req;add_job_to_node;allocated node <a href="http://wn1038.sdfarm.kr/0">wn1038.sdfarm.kr/0</a> to job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> (nsnfree=8)</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;set_nodes;job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> allocated 1 nodes (nodelist=<a href="http://wn1038.sdfarm.kr/0">wn1038.sdfarm.kr/0</a>)</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;Job Run at request of <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a></div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;relay_to_mom;momaddr=134.75.123.138</div>
<div>12/08/2010 15:06:04;0004;PBS_Server;Svr;svr_connect;attempting connect to host 134.75.123.138 port 15002</div><div>12/08/2010 15:06:04;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> state from QUEUED-PRESTAGEIN to RUNNING-STAGEGO (4-15)</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type RunJob on socket 10</div><div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command ModifyJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a>, sock=10</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request ModifyJob on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;attr Resource_List modified</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;Job Modified at request of <a href="mailto:root@ce02.sdfarm.kr">root@ce02.sdfarm.kr</a></div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;relay_to_mom;momaddr=134.75.123.138</div>
<div>12/08/2010 15:06:04;0004;PBS_Server;Svr;svr_connect;attempting connect to host 134.75.123.138 port 15002</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type ModifyJob on socket 12</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;post_modify_req: PBSE_UNKJOBID for job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a> in state RUNNING-STAGEGO, dest = <a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a></div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type NONE on socket 10</div></div><div><br></div><div><br></div><div><div>on pbs_mom, I have the following:</div><div><br></div><div><div>12/08/2010 15:06:04;0080;   pbs_mom;Req;dis_request_read;decoding command CopyFiles from PBS_Server</div>
<div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type CopyFiles from host <a href="http://ce02.sdfarm.kr">ce02.sdfarm.kr</a> received</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type CopyFiles from host <a href="http://ce02.sdfarm.kr">ce02.sdfarm.kr</a> allowed</div>
<div>12/08/2010 15:06:04;0008;   pbs_mom;Job;dispatch_request;dispatching request CopyFiles on sd=10</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;<a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>;attempting to copy file &#39;ce02.sdfarm.kr:/home/dteam018/.lcgjm/globus-cache-export.io8870/globus-cache-export.io8870.gpg&#39;</div>
<div>12/08/2010 15:06:04;0001;   pbs_mom;Svr;pbs_mom;LOG_DEBUG::init_groups, pre-sigprocmask</div><div>12/08/2010 15:06:04;0001;   pbs_mom;Svr;pbs_mom;LOG_DEBUG::init_groups, post-initgroups</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;N/A;forking to user, uid: 11218  gid: 11200  homedir: &#39;/home/dteam018&#39;</div>
<div>12/08/2010 15:06:04;0002;   pbs_mom;n/a;mom_close_poll;entered</div><div>12/08/2010 15:06:04;0080;   pbs_mom;Req;dis_request_read;decoding command ModifyJob from PBS_Server</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type ModifyJob from host <a href="http://ce02.sdfarm.kr">ce02.sdfarm.kr</a> received</div>
<div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type ModifyJob from host <a href="http://ce02.sdfarm.kr">ce02.sdfarm.kr</a> allowed</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;dispatch_request;dispatching request ModifyJob on sd=12</div>
<div>12/08/2010 15:06:04;0080;   pbs_mom;Req;req_reject;Reject reply code=15001(Unknown Job Id REJHOST=<a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a> MSG=modify job failed, unknown job <a href="http://240.ce02.sdfarm.kr">240.ce02.sdfarm.kr</a>), aux=0, type=ModifyJob, from <a href="mailto:PBS_Server@ce02.sdfarm.kr">PBS_Server@ce02.sdfarm.kr</a></div>
<div>12/08/2010 15:06:04;0080;   pbs_mom;Req;dis_request_read;decoding command Disconnect from PBS_Server</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;scan_for_terminated;entered</div><div>12/08/2010 15:06:04;0080;   pbs_mom;Svr;mom_get_sample;proc_array load started</div>
<div>12/08/2010 15:06:04;0080;   pbs_mom;n/a;mom_get_sample;proc_array loaded - nproc=210</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;scan_for_terminated;pid 12666 not tracked, statloc=0, exitval=0</div></div><div><br>
</div><div><br></div></div><div><br></div><div><meta http-equiv="content-type" content="text/html; charset=utf-8"><div>To try to find the problem I compiled the sources using debug mode and in gdb I obtain the following informations:</div>
<div><br></div><div><div>(gdb) run</div></div><div><div>Starting program: /usr/sbin/pbs_server </div><div>pbs_server is up</div><div>entered spec=<a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a></div><div>job allocation debug: 1 requested, 8 svr_clnodes, 1 svr_totnodes</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a> nsn 8, nsnfree 8, nsnshared 0</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/0">wn1038.sdfarm.kr/0</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/1">wn1038.sdfarm.kr/1</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/2">wn1038.sdfarm.kr/2</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/3">wn1038.sdfarm.kr/3</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/4">wn1038.sdfarm.kr/4</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/5">wn1038.sdfarm.kr/5</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/6">wn1038.sdfarm.kr/6</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/7">wn1038.sdfarm.kr/7</a> inuse 0x0 nprops 3</div>
<div>job allocation debug(2): 1 requested, 1 svr_numnodes</div><div>job allocation debug(3): returning 1 requested</div><div>allocated node <a href="http://wn1038.sdfarm.kr/0">wn1038.sdfarm.kr/0</a> to job <a href="http://202.ce02.sdfarm.kr">202.ce02.sdfarm.kr</a> (nsnfree=8)</div>
<div>*** glibc detected *** double free or corruption (!prev): 0x0a6f8e90 ***</div><div><br></div><div>Program received signal SIGABRT, Aborted.</div><div>0x007047a2 in _dl_sysinfo_int80 () from /lib/ld-linux.so.2</div><div>
(gdb) where</div><div>#0  0x007047a2 in _dl_sysinfo_int80 () from /lib/ld-linux.so.2</div><div>#1  0x00745915 in raise () from /lib/tls/libc.so.6</div><div>#2  0x00747379 in abort () from /lib/tls/libc.so.6</div><div>#3  0x00779e1a in __libc_message () from /lib/tls/libc.so.6</div>
<div>#4  0x0078081f in _int_free () from /lib/tls/libc.so.6</div><div>#5  0x00780c9a in free () from /lib/tls/libc.so.6</div><div>#6  0x080648b4 in free_br ()</div><div>#7  0x080655f3 in reply_send ()</div><div>#8  0x08065636 in reply_ack ()</div>
<div>#9  0x0806f23e in post_modify_req ()</div><div>#10 0x0808548f in dispatch_task ()</div><div>#11 0x08051957 in process_Dreply ()</div><div>#12 0x00f1dace in wait_request (waittime=17, SState=0x8122b3c) at ../Libnet/net_server.c:507</div>
<div>#13 0x080614d3 in main_loop ()</div><div>#14 0x0806225f in main ()</div></div><div><br></div></div><div><br></div><div><br></div><div>Does any one have any suggestions to what I should do from here?</div><div><br></div>
<div>is it possible that the os is too old for the server? is there some compatibility issues?</div><div><br></div><div>Cheers,</div><div><br></div><div>Chris.</div><div><br></div><div><br>-- <br>------------------------------------------------------<br>
Bonnaud Christophe<br>GSDC<br>Korea Institute of Science and Technology Information<br>Fax. +82-42-869-0789<br>Tel. +82-42-869-0660<br>Mobile +82-10-4664-3193<br>
</div>