<div class="gmail_quote">On Tue, Jul 3, 2012 at 10:21 AM, Lukasz Flis <span dir="ltr">&lt;<a href="mailto:l.flis@cyf-kr.edu.pl" target="_blank">l.flis@cyf-kr.edu.pl</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<br>
We are running quite a medium computing site in Poland.<br>
Daily we process around 25k jobs - grid workloads and multi node jobs<br>
submitted localy.<br>
<br>
We are facing the problem with long running pbs_server process which<br>
after one week or two consumes all the memory available on the machine.<br>
As a result pbs_server is unable to spawn subprocess to unmunge credentials:<br>
<br>
06/26/2012 15:58:20;0080;PBS_Server;Req;req_reject;Reject reply<br>
code=15012(PBS_Server System error: Inappropriate ioctl for device<br>
MSG=couldn&#39;t create pipe to unmunge), aux=0,<br>
type=AlternateUserAuthentication, from qcg-comp@someserver<br>
06/26/2012 15:59:20;0001;PBS_Server;Svr;PBS_Server;LOG_ERROR::Cannot<br>
allocate memory (12) in pipe_and_read_unmunge, Unable to popen command<br>
&#39;unmunge<br>
--input=/var/spool/torque/server_priv/credentials/munge-15-59-20-640705&#39;<br>
for reading<br>
<br>
I took the core dump of a process nearing to 4GB of RSS and VIRT memory.<br>
<br>
My question is how can I determine which part of server is leaking<br>
memory from the core file?<br>
<br>
Cheers<br>
--<br>
Lukasz Flis<br>
<br></blockquote><div>Lukasz,<br><br>What scheduler are you using to run your grid?<br><br>We did fix a large memory leak on the MOM in 2.5.12 but that obviously won&#39;t help here.<br><br>Valgrind will tell us where the memory is leaking. Are you able to run the server under Valgrind?<br>
<br>Ken <br></div></div><br>