在Azure Blob容器中存在具有不同列集的文件。具有不同集合列的Azure Blob文件
E.g. 文件1:Col1中,col2的,COL3 文件2:Col1中,COL3 文件3:col2的,COL3
如何我可以查詢這些文件都在同一時間?
PolyBase似乎不可能,因爲文件需要有相同的一組列。
是否可以通過做一些列的映射來使用Hive?
感謝
穆罕默德
在Azure Blob容器中存在具有不同列集的文件。具有不同集合列的Azure Blob文件
E.g. 文件1:Col1中,col2的,COL3 文件2:Col1中,COL3 文件3:col2的,COL3
如何我可以查詢這些文件都在同一時間?
PolyBase似乎不可能,因爲文件需要有相同的一組列。
是否可以通過做一些列的映射來使用Hive?
感謝
穆罕默德
列在Azure存儲更多的相關表。這與blob無關。 Blob存儲用於原始/非結構化文件
使用Hadoop和Hive時,每次查詢「表」時都必須編寫大量自定義代碼來動態計算列。你的表現會受到很大打擊,這樣的代碼庫的可管理性將是一場噩夢。這樣做的正確方法是移動每組文件,以便它們位於blob存儲中的自己的「文件夾」中。這將允許Polybase/Hadoop在本地管理它們。這就是說,您可以從Hadoop的分佈式體系結構中受益,爲您重新組織文件。
我們可以找到適合您的解決方案嗎? –