<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi,<div><span class="Apple-tab-span" style="white-space:pre">        </span>You need to make sure that you can ssh/scp without a password between the server and the nodes. Depending on how you have things configured you may need to make sure that you do it with short name and/or FQDN. You should be able to try a copy by hand using the error you posted. Go to&nbsp;ciarlab14.cluster.net and try to copy the file from&nbsp;&nbsp;&nbsp;/var/spool/torque/spool/32.ciarlab11.cluster.net.OU to&nbsp;ciarlab11.cluster.net:/usr/local/out.&nbsp;I'm also guessing that your using NFS partitions so be sure that you can write to those partitions on the nodes. You might need to utilize the mom directive usecp. From the Torque admin guide:</div><div><br></div><div>$usecp &nbsp;<span class="Apple-tab-span" style="white-space:pre">        </span>&lt;HOST>:&lt;SRCDIR> &lt;DSTDIR> &nbsp;<span class="Apple-tab-span" style="white-space:pre">        </span>Specifies which directories should be staged (see TORQUE Data Management) &nbsp;<span class="Apple-tab-span" style="white-space:pre">        </span>$usecp *.fte.com:/data /usr/local/data</div><div><br></div><div>Also, you state your nodes are node0-node5 but the error message says&nbsp;ciarlab11.cluster.net and&nbsp;ciarlab14.cluster.net so that is a little bit confusing. I know this has been covered on the list before so searching the archives might give you some more answers to this type of problem. I&nbsp;hope this helps.</div><div><br></div><div>-Steve</div><div><br><div><div>On Mar 12, 2009, at 9:55 PM, tracy_luofengji wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div> <div>Dear all,</div> <div>Hello, I did a fresh installation of torque 2.3.0 on my cluster, and I met a strange post job file processing problem. I did the same installation procedure on all the 5 compute nodes (node1, node2, node3, node4, node5) and node0 acts as the master. On the compute nodes, I just installed the packages:</div> <div>&nbsp;</div> <div>/usr/local/torque-package-mom-linux-i686.sh --install<br>/usr/local/torque-package-clients-linux-i686.sh --install</div> <div>&nbsp;</div> <div>and then, on the compute nodes, I ran: pbs_mom</div> <div>&nbsp;</div> <div>The problem is, when I submit test jobs, <strong>only the node1 </strong>could send the output file back to the master node. <strong>Then other 4 compute nodes could not send the output file back.</strong> I ran the command qstat -f and saw following sentences:</div> <div>......</div> <div>sched_hint:Post job file processing error;job32.ciarlab11.cluster.net on host ciarlab14.cluster.net/0</div> <div>Unable to copy file /var/spool/torque/spool/32.ciarlab11.cluster.net.OU to ciarlab11.cluster.net:/usr/local/out</div> <div>Unable to copy file /var/spool/torque/spool/32.ciarlab11.cluster.net.ER to ciarlab11.cluster.net:/usr/local/err</div> <div>comment=Job started on Thu Mar 12 at 21:09</div> <div>etime=Thu Mar 12 21:09:18 2009</div> <div>exit_status = -1</div> <div>submit_args=pbsjob</div> <div>start_time=Thu Mar 12 21:09:18 2007</div> <div>start_count=1</div> <div>&nbsp;</div> <div>And my job scipt is:</div> <div>#!/bin/sh</div> <div>#PBS -N exampleJob</div> <div>#PBS -o /usr/local/out</div> <div>#PBS -e /usr/local/err</div> <div>#PBS -V</div> <div>echo 'helloworld'</div> <div>&nbsp;</div> <div>I have spent 2 days on this issue, and I hope I can get some support from this mailling list.</div> <div>Any help will be appraciated.</div> <div>&nbsp;</div> <div>Thanks!</div> <div>Regards,</div> <div>Tracy</div><br><br></div><br><!-- footer --><br><span title="neteasefooter"><hr> <a href="http://www.yeah.net">网易邮箱,中国第一大电子邮件服务商</a> </span>_______________________________________________<br>torqueusers mailing list<br><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>http://www.supercluster.org/mailman/listinfo/torqueusers<br></blockquote></div><br></div></body></html>