我想使用Azure表存儲作爲運行在HDInsight上的Hadoop應用程序的數據源。我只發現了MSFT的this library,但沒有足夠的文檔。我有幾個關於從Azure表中採購的問題:從HDInsight中的Azure表存儲中讀取數據
1)數據塊是如何形成的?讓我們可以將記錄從一個分區傳送給每個映射器嗎?如果是,如果分區包含大量記錄會發生什麼?如果不是,那是如何工作的?
2)Hadoop應用程序是否也可以輸出到Azure表?
3)Hadoop作業可以從兩個(或更多)Azure表中獲取源數據嗎?如果是這樣,如何在映射器中區分它們?例如當從多個文件採集數據時,我們可以根據輸入文件名來區分記錄。
如果您使用的是HDInsight,那麼您可能正在使用Java進行編碼,這意味着您需要查看Azure存儲[Java客戶端](https://github.com/Azure/azure-storage-java)。有關使用Azure存儲表的最佳做法,請查看此最佳做法[指南](https://azure.microsoft.com/en-us/documentation/articles/storage-table-design-guide/)。 –
謝謝,但我主要關心在HDInsight中獲取數據。 Azure存儲Java客戶端將成爲底層。我需要一個層。 –