orc

1熱度

2回答

我在使用Sqoop導入的HDFS中有一些數據。數據導入爲ORC，壓縮爲Snappy。我想用下面的DDL語句在這個數據之上創建一個表。但是，我收到以下錯誤。失敗：SemanticException [錯誤10043]：列的任一列表或自定義序列應該通過定義ROW FORMAT SERDE and STORED AS INPUTFORMAT and OUTPUTFORMAT DDL指定不過，我定

1熱度

1回答

如何從PHP代碼創建ORC或Parquet文件？

是否有任何庫可用於從ORC或Parquet格式的PHP應用程序中爲Presto查詢編寫自定義數據文件？如果不是這種情況下的最佳做法是什麼？希望這不涉及設置Map Reduce羣集。 10X - 尼爾

0熱度

1回答

HIVE很長的字段給出了OOM堆

我們正在存儲字符串字段，其長度從小（幾kB）到很長（< 400MB）在HIVE表中變化。現在，當將數據從一個表複製到另一個表時（沒有任何條件或聯接）時，我們正面臨着OOM問題，這不完全是我們在生產中運行的，但它是出現此問題的最簡單用例。所以HQL基本上是： INSERT INTO new_table SELECT * FROM old_table; 容器和Java堆設置爲16GB，我們曾嘗試

2熱度

1回答

將數據從json保存到orc的Apache nifi問題

我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面臨以下問題。 1）單個ORC文件正在保存在HDFS上。我沒有使用任何壓縮。 2）當我嘗試訪問這些文件時，他們給出了像緩衝存儲器一樣的錯誤。感謝您的幫助。

0熱度

2回答

星火刪除阿帕奇獸人文件

我已存儲使用火花外殼的火花數據幀獸人文件如下： jdbcDF.write.format("orc").partitionBy("ID").save("applicationsPartitioned") 我發現數據現在住在WINDOWS \ SYSTEM32 \ applicationsPartitioned 我如何正確刪除該orc文件？我可以關閉spark並且自己移除目錄，但是有一些關於這個

1熱度

1回答

帶Hive的NiFi PutHiveStreaming處理器：連接到EndPoint失敗

有人會用Nifi 1.3.0和Hive幫助解決這個問題。我發現與hive 1.2和Hive 2.1.1相同的錯誤。配置單元表格是分區,分區並存儲爲ORC格式。該分區是在hdfs上創建的，但寫入階段的數據失敗。請檢查日誌如下： [5:07 AM] papesdiop: Failed connecting to EndPoint {metaStoreUri='thrift://localhost:9

0熱度

1回答

Spark沒有輸出操作註冊，所以沒什麼可執行的，但我正在寫入文件

val sc = new SparkContext(conf) val streamContext = new StreamingContext(sc, Seconds(1)) val log = Logger.getLogger("sqsLog") val sqs = streamContext.receiverStream(new SQSReceiver("queue")

0熱度

1回答

針對多個密鑰的星火獸獸分區策略

存儲事務時，通常會有幾個不同的密鑰用於過濾不同用例的查詢。例如。卡ID，帳號，客戶沒有，日期該交易可以按日期進行分配爲： jdbcDF.write.format("orc").partitionBy("TX_Date").save("transactions") 現在我可以爲特定的幾個月迅速聚集交易，但如果我想要聚合的交易基礎在例如客戶沒有？將事務ID存儲在每個事務行中，並保存由最常見的密

1熱度

1回答

阿帕奇豬 - 最佳的蜂巢文件格式

有人可以解釋一下使用HCatalog在pigScript中使用蜂巢的哪個文件格式是有效的。我想知道哪些配置單元文件格式將是有效的，因爲目前我們有一個基於日期的分區配置單元表和基礎文件是一個順序文件。 80天的數據讀取創建了大約70,000個非常龐大的映射器。試圖改變地圖拆分大小爲2GB，並沒有減少很多。因此，而不是順序文件尋找其他選項，這將減少映射器的數量。每個數據的數據大小爲9GB。有任何

0熱度

1回答

如何創建小文件同時插入數據使用TEZ

我已經試過幾個選擇，但我只看到配置設置合併小文件能像下面大文件蜂巢ORC表，但反之versa.I正在尋找創建的文件大小150kb。 set hive.merge.tezfiles=true; set hive.merge.smallfiles.avgsize=128000; set hive.merge.size.per.task=128000;