如果我有一個二進制數據文件(它可以轉換爲csv格式),有沒有辦法直接從它加載鑲木地板表?許多教程顯示將csv文件加載到文本表格,然後從文本表格加載到鑲木地板表格。從效率的角度來看,是否可以直接從我已有的二進制文件中加載鑲木地板表?理想情況下使用create external table命令。 或者我需要先將其轉換爲csv文件?是否有任何文件格式限制?是否可以直接從文件加載鑲木地板表?
2
A
回答
2
不幸的是,無法從Impala中的自定義二進制格式中讀取數據。您應該將文件轉換爲csv,然後在現有的csv文件上創建一個外部表作爲臨時表,最後將其插入從temp csv表讀取的最終parquet表中。 Impala Parquet documentation有更多的信息和一些相關的例子。請參閱關於壓縮小文件的部分,它們是相似的。
我不知道如何將文件格式轉換爲csv,但可以考慮編寫一個程序將您的二進制格式轉換爲Parquet。例如,您可以編寫一個寫入Parquet文件的MapReduce作業。下面是一個讀寫Parquet的例子: https://github.com/cloudera/parquet-examples/blob/master/MapReduce/TestReadWriteParquet.java
+0
該鏈接現在已經消失,但我在這裏發現類似:https://github.com/gregoryg/parquet-examples/tree/master/MapReduce – Codek 2017-07-17 09:47:42
相關問題
- 1. 從鑲木地板文件創建Hive表並加載數據
- 2. Parquetloader:無法使用豬加載多個鑲木地板文件
- 3. 有一個大的鑲木地板文件或大量較小的鑲木地板文件是更好嗎?
- 4. 如何在鑲木地板文件中創建日期類型列與鑲木地板
- 5. 設置鑲木地板活潑的輸出文件大小是否配置?
- 6. 不同大小的火花相同的鑲木地板文件
- 7. 在java中創建鑲木地板文件
- 8. 生成鑲木地板文件 - R和Python之間的差異
- 9. 找出原始鑲木地板文件大小?
- 10. 如何查詢製作壓縮鑲木地板文件?
- 11. 的鑲木子文件
- 12. 是否可以直接從瀏覽器加載HAML視圖?
- 13. 是否可以直接從文件寫入套接字?
- 14. 無法從命令行獲得鑲木地板工具
- 15. 無法覆蓋pyspark中的鑲木地板配置單元表
- 16. MySql可以直接從XML加載
- 17. 如何以鑲木地板格式保存數據並追加條目
- 18. 是否可以直接從瀏覽器保存文件到MongoDB?
- 19. 是否可以直接從S3打開文件
- 20. 從鑲木地板表中選擇返回蜂巢中的任何內容
- 21. 是否可以用燒瓶直接加載bootstrap模態
- 22. 如何在使用pyspark閱讀鑲木地板文件時指定模式?
- 23. 如何在鑲木地板文件中創建嵌套的對象和數組?
- 24. 火花鑲木地板轉換問題與文件格式不正確行
- 25. 是否有可能從本地加載Php文件
- 26. 如何直接從文件系統加載jinja模板
- 27. 是否可以通過HTML鏈接從Subversion下載文件?
- 28. 直接從UI文件加載QDialog?
- 29. 直接從URL加載PNG文件
- 30. 是否可以使用clojure.java.jdbc從文件中加載SQL語句?
昨天我創建了一個外部表,使用用apache drill生成的parquet文件。 – 2016-02-12 10:35:35