2017-10-28 50 views
0

我的任務是維護基於Rocks(基於Centos 6.2)的集羣,其中頭節點配置有靜態IP到公共網絡,並充當內部計算節點的NAT路由器私人網絡。節點通過標準以太網和QDR Infiniband連接到頭節點。Rocks簇頭節點DNS失敗。計算節點無法解析主機名

最近,由於DNS查找失敗,計算節點無法訪問外部數據源以開始計算,因爲他們使用wget來下拉公共可用數據集。所有的計算節點都使用/etc/resolv.conf中頭節點的IP進行配置,並且我已經檢查了頭節點上的iptables防火牆,沒有任何改變。 SSH在所有節點和頭節點之間工作。當我使用某些數據源的IP地址進行手動啓動的傳輸時,數據會再次流動,但某些應用程序無法使用IP來獲取數據。我試過重新啓動命名和iptables防火牆,到目前爲止沒有任何修復它。系統日誌(dmesg,/ var/log/messages)顯示沒有突然的故障或錯誤消息,我沒有做出最近的配置更改,並且在大約2個晚上之前,所有內容都可以正常工作多個月。頭節點可以很好地訪問和解析名字,只有NAT頭節點後面的計算節點沒有工作。

我仍然不熟悉岩石的所有工作,也不確定是否有一些特殊的岩石命令可以忽略,以便再次使用它。我可能會錯過什麼來使DNS解析再次工作?

在此先感謝!

更新:DNS在計算節點和頭節點之間內部工作(例如,計算-10-10解析爲來自所有其他節點的該節點的IP地址),因此頭節點正常充當羣集DNS。對本地區域以外的域的請求仍然失敗(例如,nslookup google.com失敗)。

回答

0

根本原因是失敗的上游DNS服務器。將/etc/named.conf轉發器選項重新配置到其他服務器,並且所有計算節點都可以再次訪問外部資源。