Hello List,<br><br>I&#39;m a Torque PBS user for many year. Currently, I&#39;m using torque 2.1.7 shipped with Mandriva Linux.<br>I have some process (betweeb 5 and 10) that submits jobs in clicles of 50 jobs and those jobs takes about 30s to run. After submitting them, those process queries the server to check if the jobs have already runned.<br>

<br>My pbs_server is dying from time to time. The messages I got are:<br><br>07/15/2009 01:50:14;0010;PBS_Server;Job;2915530.servidor.pcarga.local;Exit_status=0 resources_used.cput=00:00:09 resources_used.mem=47976kb resources_used.vmem=89560kb resources_used.walltime=00:00:11<br>

07/15/2009 01:50:14;0008;PBS_Server;Job;2915534.servidor.pcarga.local;Job Modified at request of Scheduler@servidor.pcarga.local<br>07/15/2009 01:50:14;0008;PBS_Server;Job;2915534.servidor.pcarga.local;Job Run at request of Scheduler@servidor.pcarga.local<br>

07/15/2009 01:50:22;0010;PBS_Server;Job;2915532.servidor.pcarga.local;Exit_status=0 resources_used.cput=00:00:08 resources_used.mem=0kb resources_used.vmem=0kb resources_used.walltime=00:00:10<br>07/15/2009 01:50:22;0008;PBS_Server;Job;2915535.servidor.pcarga.local;Job Modified at request of Scheduler@servidor.pcarga.local<br>

07/15/2009 01:50:22;0008;PBS_Server;Job;2915535.servidor.pcarga.local;Job Run at request of Scheduler@servidor.pcarga.local<br>07/15/2009 01:50:22;0010;PBS_Server;Job;2915534.servidor.pcarga.local;Exit_status=0 resources_used.cput=00:00:06 resources_used.mem=0kb resources_used.vmem=0kb resources_used.walltime=00:00:08<br>

07/15/2009 01:50:22;0008;PBS_Server;Job;2915536.servidor.pcarga.local;Job Modified at request of Scheduler@servidor.pcarga.local<br>07/15/2009 01:50:22;0008;PBS_Server;Job;2915536.servidor.pcarga.local;Job Run at request of Scheduler@servidor.pcarga.local<br>

07/15/2009 01:50:23;0010;PBS_Server;Job;2915531.servidor.pcarga.local;Exit_status=0 resources_used.cput=00:00:11 resources_used.mem=0kb resources_used.vmem=0kb resources_used.walltime=00:00:12<br>07/15/2009 01:50:23;0008;PBS_Server;Job;2915531.servidor.pcarga.local;purging job without checking MOM<br>

07/15/2009 01:50:23;0001;PBS_Server;Svr;PBS_Server;No such file or directory (2) in job_save, cannot open file &#39;/var/spool/torque/server_priv/jobs/2915531.ser.JB&#39; for job 2915531.servidor.pcarga.local in state STAGEDEL (quick)<br>

07/15/2009 01:50:23;0001;PBS_Server;Svr;PBS_Server;No such file or directory (2) in job_save, cannot open file &#39;/var/spool/torque/server_priv/jobs/2915531.ser.JB&#39; for job 2915531.servidor.pcarga.local in state EXITED (quick)<br>

07/15/2009 01:50:23;0001;PBS_Server;Svr;PBS_Server;No such file or directory (2) in job_save, cannot open file &#39;/var/spool/torque/server_priv/jobs/2915531.ser.JB&#39; for job 2915531.servidor.pcarga.local in state COMPLETE (quick)<br>

<br><br>Isn&#39;t it strage that the JOB was purged after finished?<br>If it is finished, why care to write the JB file?<br>This are the last lines in log. Each time this happens, pbs_server dies.<br><br>I checked the job_recov.c file but this hasn&#39;t changed from my version until the last release. However, I think that the problem is before those calls. It seems that someone does not noticed that the job is done.<br>

<br>Any clues? If this is known, is there a patch for this?<br><br>Thanks,<br><br clear="all">---<br>     Luiz Angelo Daros de Luca, Me.<br>            <a href="mailto:luizluca@gmail.com">luizluca@gmail.com</a><br>