<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 12 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>I have a compact high density chassis I am working with that has 256 &#8220;servers&#8221; in a 10U chassis. It is sort of like a blade chassis.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>I have RHEL-6.1 installed on all of these 256 servers as well as a separate standard 2U server outside the chassis.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>The internal chassis has a back-plane network that all 256 of the systems are connected to. There are 16 external Gig-E ports for communication outside the chassis.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>I have built torque-2.5.7 as rpms from the spec file enclosed in the gzipped tar ball I downloaded from CRI web site.<o:p></o:p></p><p class=MsoNormal>I installed the torque and torque-client rpms on my 256 nodes and the torque-server rpm on the external 2U system outside the chassis. This external system also provides dhcpd, named, pxeboot and etc services. This external system has a 10Gig-E card for the connection to the chassis and a 1 Gig-E connection to the other systems in the data center.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>The internal nodes are on the same class 23 network as the 10Gig-E interface of the external server.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>I configured all of the client nodes with the name of the server in the /var/spool/torque/server_name and in /var/spool/torque/mom_priv/config files. I put all of the names of the client nodes in /var/spool/torque/server_priv/nodes file.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>If I run pbsnodes after starting all of the mom daemons and the server daemon all of the nodes are shown as down. If I run momctl &#8211;d 3 &#8211;f somehost it tells me:<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal><span style='color:#1F497D'>WARNING:&nbsp; no hello/cluster-addrs messages received from server<o:p></o:p></span></p><p class=MsoNormal><span style='color:#1F497D'><o:p>&nbsp;</o:p></span></p><p class=MsoNormal>And<o:p></o:p></p><p class=MsoNormal><span style='color:#1F497D'><o:p>&nbsp;</o:p></span></p><p class=MsoNormal><span style='color:#1F497D'>WARNING:&nbsp; no messages received from server<o:p></o:p></span></p><p class=MsoNormal><span style='color:#1F497D'><o:p>&nbsp;</o:p></span></p><p class=MsoNormal>And in my /var/log/messages file I get things like:<o:p></o:p></p><p class=MsoNormal><span style='color:#1F497D'><o:p>&nbsp;</o:p></span></p><p class=MsoNormal><span style='color:#1F497D'>Jul 29 10:37:57 edmin01 PBS_Server: LOG_ERROR::stream_eof, connection to node002 is bad, remote service may be down, message may be corrupt, or connection may have been dropped remotely (Premature end of message).&nbsp; setting node state to down<o:p></o:p></span></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>So as a test I installed the torque-server rpm on one of the internal nodes and did the same configuration steps on that system as I did on the external server system. I then altered the mom_priv/config and server_name files across all of the nodes to point to this system inside the chassis instead. I restarted all of the mom daemons across the cluster and now when I run pbsnodes everything works just fine. All 256 nodes are free and alive.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>Is there any torque experts here who can suggest some additional troubleshooting steps I can try to see what might be going on with the connection to the external server?<o:p></o:p></p><p class=MsoNormal>--<o:p></o:p></p><p class=MsoNormal>Steven DuChene<o:p></o:p></p></div></body></html>