Hi again,<div><br></div><div>to be sure of what I am doing, I reinstalled the machine without any middleware, a simple pbs system. Server and client are now using a scientific linux 5.5 x86_64 ( kernel  2.6.18-194.26.1.el5 )</div>
<div><br></div><div>I still have some crash when a user submit a job. If I restart pbs server immediately, the job finish normally...</div><div><br></div><div>in the system log I can see messages like:</div><div><br></div>
<div><div>Dec  8 23:42:07 ce02 PBS_Server: LOG_ERROR::sync_node_jobs, stray job <a href="http://48.ce02.sdfarm.kr">48.ce02.sdfarm.kr</a> found on <a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a></div><div>Dec  8 23:42:07 ce02 PBS_Server: LOG_ERROR::sync_node_jobs, stray job <a href="http://48.ce02.sdfarm.kr">48.ce02.sdfarm.kr</a> found on <a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a></div>
<div>Dec  8 23:45:51 ce02 kernel: pbs_server[15693]: segfault at 00000003792977a0 rip 00002ab0b635dd14 rsp 00007fffc0a38ca0 error 4</div><div>Dec  8 23:45:51 ce02 PBS_Server: LOG_ERROR::Bad file descriptor (9) in DIS_tcp_setup, invalid file descriptor (1798204786) for socket</div>
</div><div><br></div><div>If I run pbs_server in gdb, I obtain this error:</div><div><br></div><div><div>(gdb) run</div><div>Starting program: /usr/sbin/pbs_server </div><div>pbs_server is up</div><div>entered spec=<a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a></div>
<div>job allocation debug: 1 requested, 8 svr_clnodes, 1 svr_totnodes</div><div>node_spec: <a href="http://wn1038.sdfarm.kr">wn1038.sdfarm.kr</a> nsn 8, nsnfree 8, nsnshared 0</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/0">wn1038.sdfarm.kr/0</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/1">wn1038.sdfarm.kr/1</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/2">wn1038.sdfarm.kr/2</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/3">wn1038.sdfarm.kr/3</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/4">wn1038.sdfarm.kr/4</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/5">wn1038.sdfarm.kr/5</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/6">wn1038.sdfarm.kr/6</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/7">wn1038.sdfarm.kr/7</a> inuse 0x0 nprops 3</div><div>job allocation debug(2): 1 requested, 1 svr_numnodes</div><div>job allocation debug(3): returning 1 requested</div><div>
allocated node <a href="http://wn1038.sdfarm.kr/0">wn1038.sdfarm.kr/0</a> to job <a href="http://55.ce02.sdfarm.kr">55.ce02.sdfarm.kr</a> (nsnfree=8)</div><div>Detaching after fork from child process 7981.</div><div>catch_child caught pid 7981</div>
<div>catch_child found work task found for pid 7981</div><div>*** glibc detected *** /usr/sbin/pbs_server: double free or corruption (!prev): 0x00000000011b42a0 ***</div><div>======= Backtrace: =========</div><div>/lib64/libc.so.6[0x2aaaab05530f]</div>
<div>/lib64/libc.so.6(cfree+0x4b)[0x2aaaab05576b]</div><div>/usr/sbin/pbs_server[0x41f384]</div><div>/usr/sbin/pbs_server[0x4200ab]</div><div>/usr/sbin/pbs_server[0x4200f5]</div><div>/usr/sbin/pbs_server[0x429f26]</div><div>
/usr/sbin/pbs_server[0x4412d8]</div><div>/usr/sbin/pbs_server[0x40b8a0]</div><div>/usr/lib64/libtorque.so.2(wait_request+0x264)[0x2aaaaacf1b50]</div><div>/usr/sbin/pbs_server[0x41c067]</div><div>/usr/sbin/pbs_server[0x41cd50]</div>
<div>/lib64/libc.so.6(__libc_start_main+0xf4)[0x2aaaab000994]</div><div>/usr/sbin/pbs_server[0x406639]</div><div>======= Memory map: ========</div><div>00400000-0045b000 r-xp 00000000 fd:01 491770                             /usr/sbin/pbs_server</div>
<div>0065b000-00662000 rw-p 0005b000 fd:01 491770                             /usr/sbin/pbs_server</div><div>00662000-011ca000 rw-p 00662000 00:00 0                                  [heap]</div><div>3d83600000-3d8360d000 r-xp 00000000 08:02 459069                         /lib64/libgcc_s-4.1.2-20080825.so.1</div>
<div>3d8360d000-3d8380d000 ---p 0000d000 08:02 459069                         /lib64/libgcc_s-4.1.2-20080825.so.1</div><div>3d8380d000-3d8380e000 rw-p 0000d000 08:02 459069                         /lib64/libgcc_s-4.1.2-20080825.so.1</div>
<div>2aaaaaaab000-2aaaaaac7000 r-xp 00000000 08:02 459032                     /lib64/<a href="http://ld-2.5.so">ld-2.5.so</a></div><div>2aaaaaac7000-2aaaaaac9000 rw-p 2aaaaaac7000 00:00 0 </div><div>2aaaaaad1000-2aaaaac8c000 rw-p 2aaaaaad1000 00:00 0 </div>
<div>2aaaaacc6000-2aaaaacc7000 r--p 0001b000 08:02 459032                     /lib64/<a href="http://ld-2.5.so">ld-2.5.so</a></div><div>2aaaaacc7000-2aaaaacc8000 rw-p 0001c000 08:02 459032                     /lib64/<a href="http://ld-2.5.so">ld-2.5.so</a></div>
<div>2aaaaacc8000-2aaaaacfd000 r-xp 00000000 fd:01 557972                     /usr/lib64/libtorque.so.2.0.0</div><div>2aaaaacfd000-2aaaaaefd000 ---p 00035000 fd:01 557972                     /usr/lib64/libtorque.so.2.0.0</div>
<div>2aaaaaefd000-2aaaaaeff000 rw-p 00035000 fd:01 557972                     /usr/lib64/libtorque.so.2.0.0</div><div>2aaaaaeff000-2aaaaafe3000 rw-p 2aaaaaeff000 00:00 0 </div><div>2aaaaafe3000-2aaaab131000 r-xp 00000000 08:02 458762                     /lib64/<a href="http://libc-2.5.so">libc-2.5.so</a></div>
<div>2aaaab131000-2aaaab330000 ---p 0014e000 08:02 458762                     /lib64/<a href="http://libc-2.5.so">libc-2.5.so</a></div><div>2aaaab330000-2aaaab334000 r--p 0014d000 08:02 458762                     /lib64/<a href="http://libc-2.5.so">libc-2.5.so</a></div>
<div>2aaaab334000-2aaaab335000 rw-p 00151000 08:02 458762                     /lib64/<a href="http://libc-2.5.so">libc-2.5.so</a></div><div>2aaaab335000-2aaaab33c000 rw-p 2aaaab335000 00:00 0 </div><div>2aaaab33c000-2aaaab346000 r-xp 00000000 08:02 458778                     /lib64/<a href="http://libnss_files-2.5.so">libnss_files-2.5.so</a></div>
<div>2aaaab346000-2aaaab545000 ---p 0000a000 08:02 458778                     /lib64/<a href="http://libnss_files-2.5.so">libnss_files-2.5.so</a></div><div>2aaaab545000-2aaaab546000 r--p 00009000 08:02 458778                     /lib64/<a href="http://libnss_files-2.5.so">libnss_files-2.5.so</a></div>
<div>2aaaab546000-2aaaab547000 rw-p 0000a000 08:02 458778                     /lib64/<a href="http://libnss_files-2.5.so">libnss_files-2.5.so</a></div><div>7ffffff37000-7ffffffff000 rw-p 7ffffff37000 00:00 0                      [stack]</div>
<div>ffffffffff600000-ffffffffffe00000 ---p 00000000 00:00 0                  [vdso]</div><div><br></div><div>Program received signal SIGABRT, Aborted.</div><div>0x00002aaaab013265 in raise () from /lib64/libc.so.6</div></div>
<div><br></div><div><br></div><div>anyone can help?</div><div><br></div><div>Cheers,</div><div><br></div><div>Chris.</div><div><br></div><div><br></div><div><br><br><div class="gmail_quote">On Tue, Dec 7, 2010 at 10:25 PM, christophe bonnaud <span dir="ltr">&lt;<a href="mailto:takyon77@gmail.com">takyon77@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">Hello,<div><br></div><div>I am not an expert in torque/pbs so I hope my message will be clear enough.</div><div><br></div>
<div>I have just installed a new torque server/mom compiled from source using command:</div><div>    ./configure --with-server-home=/var/spool/pbs --prefix=/usr</div>
<div>     make rpm</div><div><br></div><div>The server is running on a scientific linux 4.6 32bit ( kernel 2.6.9-89.31.1.EL.cernsmp ) and the client is running on a Scientific Linux 5.5 64bit ( kernel 2.6.18-194.26.1.el5 ).</div>

<div>Of course server and client were compiled on the machine it running.</div><div><br></div><div>I use this pbs server with the lcg middleware for Computing Element.</div><div><br></div><div>For the moment only one worker node is used to try to find the problem.</div>

<div><br></div><div>A simple manual job submission is working find but when a job arrive through the grid, the pbs crash.</div><div><br></div><div>The configuration for pbs is generated automatically by the installation of the middleware but I tried to put a basic configuration as following:</div>

<div><div>#</div><div># Create queues and set their attributes.</div><div>#</div><div>#</div><div># Create and define queue alice</div><div>#</div><div>create queue alice</div><div>set queue alice queue_type = Execution</div>

<div>set queue alice acl_group_enable = True</div><div>set queue alice acl_groups = alice</div><div>set queue alice acl_groups += alicesgm</div><div>set queue alice enabled = True</div><div>set queue alice started = True</div>

<div>#</div><div># Create and define queue ops</div><div>#</div><div>create queue ops</div><div>set queue ops queue_type = Execution</div><div>set queue ops acl_group_enable = True</div><div>set queue ops acl_groups = ops</div>

<div>set queue ops acl_groups += opssgm</div><div>set queue ops enabled = True</div><div>set queue ops started = True</div><div>#</div><div># Create and define queue dteam</div><div>#</div><div>create queue dteam</div><div>

set queue dteam queue_type = Execution</div><div>set queue dteam acl_group_enable = True</div><div>set queue dteam acl_groups = dteam</div><div>set queue dteam acl_groups += dteamsgm</div><div>set queue dteam enabled = True</div>

<div>set queue dteam started = True</div></div><div>#</div><div><div># Set server attributes.</div><div>#</div><div>set server scheduling = True</div><div>set server acl_host_enable = False</div><div>set server acl_hosts = <a href="http://ce02.sdfarm.kr" target="_blank">ce02.sdfarm.kr</a></div>

<div>set server managers = <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a></div><div>set server operators = <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a></div><div>
set server default_queue = dteam</div>
<div>set server log_events = 511</div><div>set server mail_from = adm</div><div>set server query_other_jobs = True</div><div>set server scheduler_iteration = 600</div><div>set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div>

<div>set server default_node = lcgpro</div><div>set server node_pack = False</div><div>set server log_level = 7</div><div>set server kill_delay = 10</div><div>set server next_job_number = 204</div></div><div><br></div><div>

nodes file contain only one line:</div><div><br></div><div><a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a> np=8 lcgpro ops dteam alice</div><div><br></div><div><br></div><div>pbs logs before crash by job 240:</div>

<div><br></div><div><br></div><div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request ReadyToCommit on sd=11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;ready to commit job</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type ReadyToCommit on socket 11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;ready to commit job completed</div>

<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command Commit from dteam018</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type Commit request received from <a href="mailto:dteam018@ce02.sdfarm.kr" target="_blank">dteam018@ce02.sdfarm.kr</a>, sock=11</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request Commit on sd=11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;committing job</div>

<div>12/08/2010 15:06:04;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> state from TRANSIT-TRANSICM to QUEUED-PRESTAGEIN (1-11)</div>
<div>12/08/2010 15:06:04;0100;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;enqueuing into dteam, state 1 hop 1</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type Commit on socket 11</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;Reply sent for request type Commit on socket 11</div>

<div>12/08/2010 15:06:04;0040;PBS_Server;Svr;<a href="http://ce02.sdfarm.kr" target="_blank">ce02.sdfarm.kr</a>;Scheduler was sent the command new</div><div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command Disconnect from dteam018</div>

<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command StatusNode from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type StatusNode request received from <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a>, sock=10</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request StatusNode on sd=10</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;req_stat_node;entered</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusNode on socket 10</div>

<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command StatusQueue from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type StatusQueue request received from <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a>, sock=10</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request StatusQueue on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusQueue on socket 10</div>

<div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command StatusJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type StatusJob request received from <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a>, sock=10</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request StatusJob on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusJob on socket 10</div><div>

12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command ModifyJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a>, sock=10</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request ModifyJob on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;attr Resource_List modified</div>

<div>12/08/2010 15:06:04;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> state from QUEUED-PRESTAGEIN to QUEUED-PRESTAGEIN (1-11)</div>
<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;Job Modified at request of <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a></div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type ModifyJob on socket 10</div><div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command RunJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type RunJob request received from <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a>, sock=10</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request RunJob on sd=10</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;set_nodes;allocating nodes for job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> with node expression &#39;<a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a>&#39;</div>

<div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;entered spec=<a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a></div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;job allocation debug: 1 requested, 8 svr_clnodes, 1 svr_totnodes</div>

<div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;job allocation debug(2): 1 requested, 1 svr_numnodes</div><div>12/08/2010 15:06:04;0040;PBS_Server;Req;node_spec;job allocation debug(3): returning 1 requested</div>
<div>
12/08/2010 15:06:04;0040;PBS_Server;Req;add_job_to_node;allocated node <a href="http://wn1038.sdfarm.kr/0" target="_blank">wn1038.sdfarm.kr/0</a> to job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> (nsnfree=8)</div>
<div>12/08/2010 15:06:04;0040;PBS_Server;Req;set_nodes;job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> allocated 1 nodes (nodelist=<a href="http://wn1038.sdfarm.kr/0" target="_blank">wn1038.sdfarm.kr/0</a>)</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;Job Run at request of <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a></div>
<div>12/08/2010 15:06:04;0040;PBS_Server;Req;relay_to_mom;momaddr=134.75.123.138</div>
<div>12/08/2010 15:06:04;0004;PBS_Server;Svr;svr_connect;attempting connect to host 134.75.123.138 port 15002</div><div>12/08/2010 15:06:04;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> state from QUEUED-PRESTAGEIN to RUNNING-STAGEGO (4-15)</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type RunJob on socket 10</div><div>12/08/2010 15:06:04;0080;PBS_Server;Req;dis_request_read;decoding command ModifyJob from root</div><div>12/08/2010 15:06:04;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a>, sock=10</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;dispatch_request;dispatching request ModifyJob on sd=10</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;attr Resource_List modified</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;Job Modified at request of <a href="mailto:root@ce02.sdfarm.kr" target="_blank">root@ce02.sdfarm.kr</a></div>
<div>12/08/2010 15:06:04;0040;PBS_Server;Req;relay_to_mom;momaddr=134.75.123.138</div>
<div>12/08/2010 15:06:04;0004;PBS_Server;Svr;svr_connect;attempting connect to host 134.75.123.138 port 15002</div><div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type ModifyJob on socket 12</div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;post_modify_req: PBSE_UNKJOBID for job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a> in state RUNNING-STAGEGO, dest = <a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a></div>

<div>12/08/2010 15:06:04;0008;PBS_Server;Job;reply_send;Reply sent for request type NONE on socket 10</div></div><div><br></div><div><br></div><div><div>on pbs_mom, I have the following:</div><div><br></div><div><div>12/08/2010 15:06:04;0080;   pbs_mom;Req;dis_request_read;decoding command CopyFiles from PBS_Server</div>

<div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type CopyFiles from host <a href="http://ce02.sdfarm.kr" target="_blank">ce02.sdfarm.kr</a> received</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type CopyFiles from host <a href="http://ce02.sdfarm.kr" target="_blank">ce02.sdfarm.kr</a> allowed</div>

<div>12/08/2010 15:06:04;0008;   pbs_mom;Job;dispatch_request;dispatching request CopyFiles on sd=10</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;<a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>;attempting to copy file &#39;ce02.sdfarm.kr:/home/dteam018/.lcgjm/globus-cache-export.io8870/globus-cache-export.io8870.gpg&#39;</div>

<div>12/08/2010 15:06:04;0001;   pbs_mom;Svr;pbs_mom;LOG_DEBUG::init_groups, pre-sigprocmask</div><div>12/08/2010 15:06:04;0001;   pbs_mom;Svr;pbs_mom;LOG_DEBUG::init_groups, post-initgroups</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;N/A;forking to user, uid: 11218  gid: 11200  homedir: &#39;/home/dteam018&#39;</div>

<div>12/08/2010 15:06:04;0002;   pbs_mom;n/a;mom_close_poll;entered</div><div>12/08/2010 15:06:04;0080;   pbs_mom;Req;dis_request_read;decoding command ModifyJob from PBS_Server</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type ModifyJob from host <a href="http://ce02.sdfarm.kr" target="_blank">ce02.sdfarm.kr</a> received</div>

<div>12/08/2010 15:06:04;0008;   pbs_mom;Job;process_request;request type ModifyJob from host <a href="http://ce02.sdfarm.kr" target="_blank">ce02.sdfarm.kr</a> allowed</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;dispatch_request;dispatching request ModifyJob on sd=12</div>

<div>12/08/2010 15:06:04;0080;   pbs_mom;Req;req_reject;Reject reply code=15001(Unknown Job Id REJHOST=<a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a> MSG=modify job failed, unknown job <a href="http://240.ce02.sdfarm.kr" target="_blank">240.ce02.sdfarm.kr</a>), aux=0, type=ModifyJob, from <a href="mailto:PBS_Server@ce02.sdfarm.kr" target="_blank">PBS_Server@ce02.sdfarm.kr</a></div>

<div>12/08/2010 15:06:04;0080;   pbs_mom;Req;dis_request_read;decoding command Disconnect from PBS_Server</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;scan_for_terminated;entered</div><div>12/08/2010 15:06:04;0080;   pbs_mom;Svr;mom_get_sample;proc_array load started</div>

<div>12/08/2010 15:06:04;0080;   pbs_mom;n/a;mom_get_sample;proc_array loaded - nproc=210</div><div>12/08/2010 15:06:04;0008;   pbs_mom;Job;scan_for_terminated;pid 12666 not tracked, statloc=0, exitval=0</div></div><div>
<br>
</div><div><br></div></div><div><br></div><div><div>To try to find the problem I compiled the sources using debug mode and in gdb I obtain the following informations:</div>
<div><br></div><div><div>(gdb) run</div></div><div><div>Starting program: /usr/sbin/pbs_server </div><div>pbs_server is up</div><div>entered spec=<a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a></div>
<div>job allocation debug: 1 requested, 8 svr_clnodes, 1 svr_totnodes</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr" target="_blank">wn1038.sdfarm.kr</a> nsn 8, nsnfree 8, nsnshared 0</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/0" target="_blank">wn1038.sdfarm.kr/0</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/1" target="_blank">wn1038.sdfarm.kr/1</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/2" target="_blank">wn1038.sdfarm.kr/2</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/3" target="_blank">wn1038.sdfarm.kr/3</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/4" target="_blank">wn1038.sdfarm.kr/4</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/5" target="_blank">wn1038.sdfarm.kr/5</a> inuse 0x0 nprops 3</div><div>node_spec: <a href="http://wn1038.sdfarm.kr/6" target="_blank">wn1038.sdfarm.kr/6</a> inuse 0x0 nprops 3</div>
<div>node_spec: <a href="http://wn1038.sdfarm.kr/7" target="_blank">wn1038.sdfarm.kr/7</a> inuse 0x0 nprops 3</div>
<div>job allocation debug(2): 1 requested, 1 svr_numnodes</div><div>job allocation debug(3): returning 1 requested</div><div>allocated node <a href="http://wn1038.sdfarm.kr/0" target="_blank">wn1038.sdfarm.kr/0</a> to job <a href="http://202.ce02.sdfarm.kr" target="_blank">202.ce02.sdfarm.kr</a> (nsnfree=8)</div>

<div>*** glibc detected *** double free or corruption (!prev): 0x0a6f8e90 ***</div><div><br></div><div>Program received signal SIGABRT, Aborted.</div><div>0x007047a2 in _dl_sysinfo_int80 () from /lib/ld-linux.so.2</div><div>

(gdb) where</div><div>#0  0x007047a2 in _dl_sysinfo_int80 () from /lib/ld-linux.so.2</div><div>#1  0x00745915 in raise () from /lib/tls/libc.so.6</div><div>#2  0x00747379 in abort () from /lib/tls/libc.so.6</div><div>#3  0x00779e1a in __libc_message () from /lib/tls/libc.so.6</div>

<div>#4  0x0078081f in _int_free () from /lib/tls/libc.so.6</div><div>#5  0x00780c9a in free () from /lib/tls/libc.so.6</div><div>#6  0x080648b4 in free_br ()</div><div>#7  0x080655f3 in reply_send ()</div><div>#8  0x08065636 in reply_ack ()</div>

<div>#9  0x0806f23e in post_modify_req ()</div><div>#10 0x0808548f in dispatch_task ()</div><div>#11 0x08051957 in process_Dreply ()</div><div>#12 0x00f1dace in wait_request (waittime=17, SState=0x8122b3c) at ../Libnet/net_server.c:507</div>

<div>#13 0x080614d3 in main_loop ()</div><div>#14 0x0806225f in main ()</div></div><div><br></div></div><div><br></div><div><br></div><div>Does any one have any suggestions to what I should do from here?</div><div><br></div>

<div>is it possible that the os is too old for the server? is there some compatibility issues?</div><div><br></div><div>Cheers,</div><div><br></div><div>Chris.</div><div><br></div><font color="#888888"><div><br>-- <br>------------------------------------------------------<br>

Bonnaud Christophe<br>GSDC<br>Korea Institute of Science and Technology Information<br>Fax. +82-42-869-0789<br>Tel. +82-42-869-0660<br>Mobile +82-10-4664-3193<br>
</div>
</font></blockquote></div><br><br clear="all"><br>-- <br>------------------------------------------------------<br>Bonnaud Christophe<br>GSDC<br>Korea Institute of Science and Technology Information<br>Fax. +82-42-869-0789<br>
Tel. +82-42-869-0660<br>Mobile +82-10-4664-3193<br>
</div>