2014-02-24 21 views
2

我得到一個集羣,其中的節點連接在胖樹IB中。這些交換機是Qlogic 12300.Infiniband連接問題

我遇到的問題是某些節點無法相互通話。即使有其他節點,也可以與兩個受影響的節點通話。

我用ibtracert來診斷問題。令人驚訝的是,如果我在可以與兩個節點交談的單獨節點上運行該命令,它們都很好,並且報告了可行的路線。

但是,如果我從兩個受影響的節點發出它,ibtracert命令會出錯。

請問可能的原因是什麼?

謝謝。

+0

請考慮重新發布您的問題http://serverfault.com –

回答

2

兩個HCA無法互相通信,因爲這就是您的子網中的路由配置方式。 事實上,你可以從第三臺機器到兩臺「有問題」的機器,這表明這不是主機的問題,而是子網問題。

Infiniband路由是一個複雜的問題,只是通過您的描述我不知道如何解決它。

通常,子網管理器正在計算和配置所有交換機上的路由。 您使用的是什麼類型的子網管理器?是在某些主機上運行的OpenSM,還是在其中一臺交換機上運行嵌入的Qlogic SM?

如果是Qlogic,則需要轉到其管理UI並更改/修復路由算法。 如果是OpenSM,則可以使用「minhop」路由(運行"opensm -h"查看使用情況)來運行它 - 這應該可以解決問題。 但是,這並不能真正解決這個問題 - 您可能在子網拓撲結構中存在一些問題,並且這是您在一次/每次路徑解決問題時需要關注的地方。

+0

感謝您的答覆。很有幫助。它是嵌入在覈心交換機之一的Qlogic SM運行。我正在使用胖樹路由。我注意到一個核心交換機和一個葉子交換機之間,有兩條電纜顯示「連接」的狀態,但是狀態不是活動的,而是「初始化」。這是否表明兩根電纜不好?如果不好,爲什麼它顯示鏈接? – Wei

+0

我不確定你指的是「狀態」和「狀態」。每個端口都有兩種類型的狀態:物理狀態和邏輯狀態。 「國家」和「地位」可能是Qlogic的詞彙。我猜你看到物理狀態是「連接」,邏輯上是「init」。事實上,這是您在連接到交換機的端口上看到的狀態,提示您的SM已關閉/卡住,或者某個交換機出現問題。電纜將是我最後的懷疑。檢查您的SM(可能重新啓動它),或重新啓動發生故障的核心交換機或葉子交換機。 – kliteyn

+0

我已經看到鏈接在初始化之前就被卡住了,並且已經將其跟蹤到ib交換機上的一個錯誤端口。由於通過該交換機的事情數量很多,我無法重新執行測試,只是繞過了端口。 – MrBooks