<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi,<div><br></div><div>I have been trying to enable BLCR (Berkeley Checkpoint Restart) on torque in my cluster but with no success.&nbsp;</div><div>I followed the tutorial on the webpage (<a href="http://www.clusterresources.com/torquedocs21/2.6jobcheckpoint.shtml">http://www.clusterresources.com/torquedocs21/2.6jobcheckpoint.shtml</a>)&nbsp;to enable BLCR support and everything compiles smoothly.&nbsp;</div><div>After installation I am able to submit jobs normally, with no checkpointing enabled or with checkpointing enabled ("qsub -c enabled ..."), but I am unable to hold a running job ("qhold &lt;job number&gt;") submitted with&nbsp;checkpointing enabled.&nbsp;</div><div>Every time I try to hold a job I get the following message:</div><div>"qhold: something specified didn't exist MSG=MOM rejected hold request: 15204 &lt;job number&gt;.&lt;cluster name&gt;"&nbsp;</div><div><br></div><div>I am running Rocks 5.4 on the cluster and BLCR 0.8.2. The BLCR kernel modules are running correctly on the compute nodes and the paths to BLCR commands and libraries are present in $PATH and $LD_LIBRARY_PATH variables respectively.</div><div><br></div><div>In the attachments section is the result of a tracejob.</div><div><br></div><div>I would really appreciate some help with this problem.</div><div>Thank you.</div><div><br></div><div></div></body></html>