<div dir="ltr">I&#39;m curious about this message:<div><br></div><div><div>Mar 17 13:39:16 node31 pbs_mom: LOG_ERROR::Connection refused (111) in</div><div>open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0">192.168.100.132:0</a></div>
</div><div><br></div><div>It looks like it is unable to open a port to this address. Does the address look legitimate? Is it possible there&#39;s a firewall or some other setting preventing this connection from being successful? This error is causing jobs to fail to start - parallel jobs won&#39;t run without the demux.</div>
</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Mar 17, 2014 at 7:02 AM, Thomas Dargel <span dir="ltr">&lt;<a href="mailto:td@chemie.hu-berlin.de" target="_blank">td@chemie.hu-berlin.de</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi All,<br>
<br>
  I observed this behavior of torque after restarting a pbs_mom on a joined<br>
sisternode of a parallel job: job is being killed, found these messages:<br>
<br>
job.e496:<br>
[node32:06220] plm:tm: failed to spawn daemon, error code = 17000<br>
<br>
../../mom_logs/20140317:<br>
03/17/2014 13:39:00;0008;   pbs_mom.6359;Svr;task_save;saving task in<br>
/var/spool/torque/4261/mom_priv/jobs/<a href="http://496.borneo.TK" target="_blank">496.borneo.TK</a><br>
03/17/2014 13:39:00;0002;   pbs_mom.6370;n/a;mom_close_poll;entered<br>
03/17/2014 13:39:20;0001;   pbs_mom.6359;Job;496.borneo;task not started,<br>
&#39;orted&#39;, stdio setup failed (see syslog)<br>
03/17/2014 13:39:20;0008;   pbs_mom.6359;Job;496.borneo;ERROR:    received<br>
request &#39;SPAWN_TASK&#39; from <a href="http://192.168.100.132:822" target="_blank">192.168.100.132:822</a> for job &#39;496.borneo&#39; (cannot start<br>
task)<br>
<br>
/var/log/messages:<br>
Mar 17 13:39:00 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:02 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:04 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:06 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:08 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:10 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:12 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:14 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:16 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:18 node31 pbs_mom: LOG_ERROR::Connection refused (111) in<br>
open_demux, open_demux: cannot connect to <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:20 node31 pbs_mom: LOG_ERROR::Inappropriate ioctl for device (25)<br>
in open_demux, open_demux: connect <a href="http://192.168.100.132:0" target="_blank">192.168.100.132:0</a><br>
Mar 17 13:39:20 node31 pbs_mom: LOG_ERROR::Inappropriate ioctl for device (25)<br>
in start_process, cannot open mux stdout port<br>
<br>
It occurs if several job invocations are listed in the job-script, the job<br>
which is running during the restart of pbs_mom will finish fine, the error will<br>
occur during the start-up of the next parallel job out of the job-script.<br>
<br>
Torque: 4.2.6.1 and 4.2.7<br>
Maui: 3.3.1<br>
OS: SLES11SP3, 3.0.101-0.15<br>
<br>
The job won&#39;t be interferred if only the pbs_mom on the master_node of this<br>
job is restarted.<br>
<br>
Since I&#39;m very new to the 4.X.X version of torque, I&#39;m not sure if this is<br>
normal behavior. If not, could someone give me a hint how I can overcome this??<br>
<br>
Thank you in advance,<br>
regards<br>
<br>
  Thomas.<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>