2015-04-21 62 views
1

我的組目前具有初級和次級namenodes可以訪問的每個人通過LAN和幾個數據節點連接到一個單獨的Hadoop集羣設置用於測試(Cloudera的)交換機,不能通過局域網訪問。閱讀來自HDFS文件,而不對數據的訪問的節點

在此設置下,我能夠從我的開發人員的筆記本電腦連接到namenodes,做不得不做的文件元數據,例如獲取目錄中的文件列表的東西。但是,我無法讀取任何實際的文件內容。

是否有可能讓我只通過namenodes讀取文件內容有任何方法?或者我必須咬緊牙關,讓網絡安裝得到妥善修復?

謝謝!

回答

2

您必須使用HttpFS Gateway,也被稱爲Hadoop的HDFS通過HTTP。通過使用該服務,100%與webhdfs API兼容,你將能夠執行兩步驟操作(即那些訪問名稱節點在第一階段中,然後接收重定向到的Datanode,最後在第二階段訪問這樣的Datanode)通過只訪問HttpFS運行的節點;這是因爲HttpFS在重定向中指向自己。

在你的情況下,在安裝的Namenode HttpFS。

+0

它的工作原理!我使用了一些簡單的pywebhdfs代碼,我可以找回我需要的文件。我完全期待我不得不做一堆網絡配置來獲得所有可訪問的節點,但HttpFS完全符合我的需要。謝謝! – bnsmith