<br><br><div class="gmail_quote">On Fri, Jun 6, 2008 at 4:37 AM, Chris Samuel &lt;<a href="mailto:csamuel@vpac.org">csamuel@vpac.org</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="Ih2E3d"><br>
----- &quot;Darren Platt&quot; &lt;<a href="mailto:darren@23andme.com">darren@23andme.com</a>&gt; wrote:<br>
<br>
&gt; Just to elaborate on my earlier comments on the scp mechanism for file<br>
&gt; transfer. Here&#39;s a simple test that breaks it on our (modestly small)<br>
&gt; test cluster:<br>
<br>
</div>Two questions:<br>
<br>
1) Is this with 2.3 ?</blockquote><div><br>yes , 2.3.0<br><br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
<br>
2) Can you check your syslog and mom logs for things like:<br>
<br>
pbs_mom: No such file or directory (2) in open_std_file, cannot open/create stdout/stderr file &#39;/usr/spool/PBS/spool/253428.tango-m.vpac.org.OU&#39;</blockquote><div><br>didn&#39;t find this one .&nbsp; I did locate the notification of failure finally in the syslogs (is there any way of putting these in the mom logs instead?)<br>
<br>Jun&nbsp; 5 11:52:31 cs0301 pbs_mom: req_cpyfile, Unable to copy file /opt/torque-data/spool/5511-94.cs0300.corp.23andme.<br>com.OU to bio@cs0300.corp.23andme.com:/home/bio/STDIN.o5511-94<br>Jun&nbsp; 5 11:52:35 cs0301 pbs_mom: sys_copy, command &#39;/usr/bin/scp -o StrictHostKeyChecking=no /opt/torque-data/spool/5<br>
<a href="http://511-92.cs0300.corp.23andme.com.ER">511-92.cs0300.corp.23andme.com.ER</a> bio@cs0300.corp.23andme.com:/home/bio/STDIN.e5511-92&#39; failed with status=1, giving<br>&nbsp;up after 4 attempts<br><br>Looks like it&#39;s just overwhelming scp&#39;s capacity<br>
<br>Darren<br><br><br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
<br>
as we&#39;re seeing this occasionally on some nodes, and some<br>
extra debugging I added implied that O_CREAT was disappearing.<br>
<br>
Have just recompiled my mom&#39;s with extra code to print out<br>
where that might happen to see if it&#39;s deliberately getting<br>
dropped or not, but it may take a little time to work out<br>
what&#39;s going on..<br>
<br>
cheers,<br>
Chris<br>
<font color="#888888">--<br>
Christopher Samuel - (03) 9925 4751 - Systems Manager<br>
&nbsp;The Victorian Partnership for Advanced Computing<br>
&nbsp;P.O. Box 201, Carlton South, VIC 3053, Australia<br>
VPAC is a not-for-profit Registered Research Agency<br>
</font><div><div></div><div class="Wj3C7c">_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Darren Platt<br>Senior Director, Research<br>23andMe, inc