Just to elaborate on my earlier comments on the scp mechanism for file transfer.&nbsp; Here&#39;s a simple test that breaks it on our (modestly small) test cluster:<br><br># Run a lot of small quickly exiting jobs on the cluster<br>
echo&nbsp; &quot;sleep 0.1; echo hello world&quot;&nbsp; | qsub -t 1-100 <br><br>Post completion:<br><br>ls -l STDIN.* | wc -l<br>118<br><br>Random stdout/stderr files are not returned.&nbsp; There doesn&#39;t seem to be a pattern.&nbsp; Ranges go missing, presumably when there were just too many results<br>
coming back simultaneously.&nbsp; Here&#39;s the full set.&nbsp; For example STDOUT 21-36 are missed.&nbsp; The count varies run to run.&nbsp; The others all ended up in the undelivered<br>directories across the nodes.&nbsp; Is there any way to get torque to retry delivery a few times in the event of failure?<br>
<br>$ ls STD*<br>STDIN.e5510-1&nbsp;&nbsp;&nbsp; STDIN.e5510-18&nbsp; STDIN.e5510-39&nbsp; STDIN.e5510-51&nbsp; STDIN.e5510-72&nbsp; STDIN.e5510-84&nbsp; STDIN.e5510-93&nbsp;&nbsp; STDIN.o5510-15&nbsp; STDIN.o5510-39&nbsp; STDIN.o5510-50&nbsp; STDIN.o5510-72&nbsp; STDIN.o5510-83<br>STDIN.e5510-10&nbsp;&nbsp; STDIN.e5510-19&nbsp; STDIN.e5510-4&nbsp;&nbsp; STDIN.e5510-52&nbsp; STDIN.e5510-73&nbsp; STDIN.e5510-85&nbsp; STDIN.e5510-94&nbsp;&nbsp; STDIN.o5510-16&nbsp; STDIN.o5510-4&nbsp;&nbsp; STDIN.o5510-51&nbsp; STDIN.o5510-73&nbsp; STDIN.o5510-84<br>
STDIN.e5510-100&nbsp; STDIN.e5510-2&nbsp;&nbsp; STDIN.e5510-40&nbsp; STDIN.e5510-54&nbsp; STDIN.e5510-74&nbsp; STDIN.e5510-86&nbsp; STDIN.e5510-97&nbsp;&nbsp; STDIN.o5510-17&nbsp; STDIN.o5510-40&nbsp; STDIN.o5510-53&nbsp; STDIN.o5510-74&nbsp; STDIN.o5510-85<br>STDIN.e5510-11&nbsp;&nbsp; STDIN.e5510-20&nbsp; STDIN.e5510-41&nbsp; STDIN.e5510-55&nbsp; STDIN.e5510-75&nbsp; STDIN.e5510-87&nbsp; STDIN.o5510-1&nbsp;&nbsp;&nbsp; STDIN.o5510-18&nbsp; STDIN.o5510-41&nbsp; STDIN.o5510-56&nbsp; STDIN.o5510-75&nbsp; STDIN.o5510-87<br>
STDIN.e5510-12&nbsp;&nbsp; STDIN.e5510-22&nbsp; STDIN.e5510-42&nbsp; STDIN.e5510-6&nbsp;&nbsp; STDIN.e5510-76&nbsp; STDIN.e5510-88&nbsp; STDIN.o5510-10&nbsp;&nbsp; STDIN.o5510-19&nbsp; STDIN.o5510-42&nbsp; STDIN.o5510-6&nbsp;&nbsp; STDIN.o5510-76&nbsp; STDIN.o5510-88<br>STDIN.e5510-13&nbsp;&nbsp; STDIN.e5510-26&nbsp; STDIN.e5510-43&nbsp; STDIN.e5510-63&nbsp; STDIN.e5510-79&nbsp; STDIN.e5510-89&nbsp; STDIN.o5510-100&nbsp; STDIN.o5510-2&nbsp;&nbsp; STDIN.o5510-44&nbsp; STDIN.o5510-63&nbsp; STDIN.o5510-79&nbsp; STDIN.o5510-9<br>
STDIN.e5510-14&nbsp;&nbsp; STDIN.e5510-3&nbsp;&nbsp; STDIN.e5510-45&nbsp; STDIN.e5510-65&nbsp; STDIN.e5510-8&nbsp;&nbsp; STDIN.e5510-9&nbsp;&nbsp; STDIN.o5510-11&nbsp;&nbsp; STDIN.o5510-20&nbsp; STDIN.o5510-45&nbsp; STDIN.o5510-65&nbsp; STDIN.o5510-8&nbsp;&nbsp; STDIN.o5510-91<br>STDIN.e5510-15&nbsp;&nbsp; STDIN.e5510-30&nbsp; STDIN.e5510-49&nbsp; STDIN.e5510-7&nbsp;&nbsp; STDIN.e5510-80&nbsp; STDIN.e5510-90&nbsp; STDIN.o5510-12&nbsp;&nbsp; STDIN.o5510-3&nbsp;&nbsp; STDIN.o5510-46&nbsp; STDIN.o5510-7&nbsp;&nbsp; STDIN.o5510-80&nbsp; STDIN.o5510-97<br>
STDIN.e5510-16&nbsp;&nbsp; STDIN.e5510-34&nbsp; STDIN.e5510-5&nbsp;&nbsp; STDIN.e5510-70&nbsp; STDIN.e5510-81&nbsp; STDIN.e5510-91&nbsp; STDIN.o5510-13&nbsp;&nbsp; STDIN.o5510-37&nbsp; STDIN.o5510-49&nbsp; STDIN.o5510-70&nbsp; STDIN.o5510-81<br>STDIN.e5510-17&nbsp;&nbsp; STDIN.e5510-37&nbsp; STDIN.e5510-50&nbsp; STDIN.e5510-71&nbsp; STDIN.e5510-83&nbsp; STDIN.e5510-92&nbsp; STDIN.o5510-14&nbsp;&nbsp; STDIN.o5510-38&nbsp; STDIN.o5510-5&nbsp;&nbsp; STDIN.o5510-71&nbsp; STDIN.o5510-82<br>
<br><br clear="all"><br>-- <br>Darren Platt<br>Senior Director, Research<br>23andMe, inc