2015-12-08 22 views
0

在Azure Blob容器中存在具有不同列集的文件。具有不同集合列的Azure Blob文件

E.g. 文件1:Col1中,col2的,COL3 文件2:Col1中,COL3 文件3:col2的,COL3

如何我可以查詢這些文件都在同一時間?

PolyBase似乎不可能,因爲文件需要有相同的一組列。

是否可以通過做一些列的映射來使用Hive?

感謝

穆罕默德

+0

我們可以找到適合您的解決方案嗎? –

回答

-1

列在Azure存儲更多的相關表。這與blob無關。 Blob存儲用於原始/非結構化文件

0

使用Hadoop和Hive時,每次查詢「表」時都必須編寫大量自定義代碼來動態計算列。你的表現會受到很大打擊,這樣的代碼庫的可管理性將是一場噩夢。這樣做的正確方法是移動每組文件,以便它們位於blob存儲中的自己的「文件夾」中。這將允許Polybase/Hadoop在本地管理它們。這就是說,您可以從Hadoop的分佈式體系結構中受益,爲您重新組織文件。

相關問題