我正在使用peopleDF.write.parquet("people.parquet")
代碼將數據寫入parquet
文件格式。現在我所要做的是從同一個代碼,我想在這個parquet
文件,然後我可以在以後從查詢的頂部創建一個table
。我怎樣才能做到這一點?從地板文件頂部的pyspark代碼創建表
回答
可以使用saveAsTable
method:
peopleDF.write.saveAsTable('people_table')
但那保存數據幀作爲一個表,並在地板文件 – user2966197
你有hive
這樣創建外部表:
CREATE EXTERNAL TABLE my_table (
col1 INT,
col2 INT
) STORED AS PARQUET
LOCATION '/path/to/';
哪裏/path/to/
是在HDFS文件的絕對路徑。
如果要使用分區您可以添加PARTITION BY (col3 INT)
。在這種情況下,您需要執行repair
。
感謝的頂部而不是創建該表!這我知道,但如何從pyspark代碼執行呢? – user2966197
你不需要。只要確保文件在目錄中。每次添加新數據時,您都必須執行修復並使元數據無效以查看更改。您可以通過命令行配置單元或通過使用一些工具,如sqlWorkbench –
啊查詢您的表,你可以試試這個:http://stackoverflow.com/questions/36051091/query-hive-table-in-pyspark。一旦表創建您可以通過HiveContext –
- 1. 編碼模板 - 代碼文件頂部的自動屬性
- 2. 創建C#代碼從JSON文件
- 3. 用C#從源代碼創建文件
- 4. 從代碼創建wmv文件?
- 5. 從asp.net代碼創建xlsx文件
- 6. 從VS2013創建APK文件C++代碼
- 7. 從java代碼創建Json文件
- 8. 從鑲木地板文件創建Hive表並加載數據
- 9. 使用PySpark從地圖創建全局列表的問題
- 10. 從任意TSV文件創建mysql表的PHP/Perl代碼
- 11. 從五個頂部到底部的相關表格創建JSON
- 12. 文本裝飾頂部的javascript代碼
- 13. 如何從代碼塊中的.cpp文件創建.exe文件?
- 14. 創建多個面板或創建一個,並從代碼
- 15. 從我的代碼文檔創建PDF
- 16. PySpark - 從文本文件創建數據框
- 17. 在插件代理代碼中創建新的Relic插件儀表板
- 18. 創建網絡服務文件,只創建代碼文件
- 19. 查看從底部的文件頂部
- 20. 代碼不創建文本文件C#
- 21. 創建false.xml文件的VBA代碼
- 22. SQL創建表的代碼
- 23. 從頂部滑動面板
- 24. 在pyspark代碼中加載外部庫
- 25. 從HTML代碼中創建表
- 26. 從VB腳本創建文檔代碼
- 27. 從代碼創建Word文檔
- 28. 滾動到頂部代碼
- 29. 從文件創建列表
- 30. awk:從文件創建表
什麼表?您可以將該實木複合地板加載到DataFrame。將其註冊爲臨時表並使用sparkSQL運行您的查詢。或者告訴我們你如何運行查詢? –
@YuriyNedostup我想要的是根據我寫的地板文件創建一個配置單元表。我不想要臨時表 – user2966197
您的拼花文件是否存儲在HDFS中? –