orc

0熱度

1回答

ORC文件是否具有在條紋上可拆分的快速壓縮？

ORC文件是否具有Snappy Compression在條紋上可拆分？據我所知Snappy壓縮文件不可拆分。但我已經在博客中讀到了一個快速壓縮的文件可以在條紋分割。這是真的嗎？

0熱度

1回答

Hive使用Java的ORC轉換文本

我想知道是否可以使用java解決方案將文本文件轉換爲ORC文件以用於Hive。我們不想使用配置單元查詢來轉換它。有什麼建議麼？

2熱度

1回答

hadoop orc table始終只需要一個映射器

在我當前的項目中，我使用的是快速壓縮格式的Orc文件，運行它的任何查詢都只運行一個映射器。我嘗試配置mapred.max。 split.size和mapred.min.split.size，但沒有顯示mappers的數量有任何變化。reducer的數量已經足夠好了，但由於mapper是一個mapper，因此需要運行一個簡單查詢的時間。從x組中選擇x，max（y）x;需要將近20分鐘才能完成映射器

0熱度

1回答

以HDC格式在HDFS中存儲avro數據，不使用HIVE

將存儲avro數據與ORC和Parquet格式進行比較，我成功地使用「com.twitter」％「parquet-avro」將Avro數據存儲到實木複合地板上％「1.6.0」，但無法找到任何信息或API以ORC格式存儲avro數據。 ORC是否僅與Hive緊密結合？感謝 subahsh

1熱度

2回答

在插入數據時配置單元語義異常

我使用ORC創建了一個配置單元表。如果我從hive控制檯插入數據，它的工作原理是完美的。但是如果我從Jdbc代碼插入數據，它會拋出配置單元語義異常。錯誤 rg.apache.hive.service.cli.HiveSQLException：錯誤在編譯聲明：失敗：SemanticException [錯誤10293]：無法創建類型TOK_TABLE_OR_COL的插入值表達臨時文件不支持插入/值

1熱度

1回答

將架構演化（SCD）JSON/XML轉換爲ORC/Parquet格式

我們正在獲取各種JSON/XML作爲輸入，其中架構總是在不斷髮展。我想在Hadoop/Hive環境中使用ORC或Parquet格式來處理它們，以提高性能。我知道以下實現相同目標的常見樣式：使用JSONSerde或XMLSerde庫，首先使用這些serde創建配置單元表。後面的select * fields查詢將在每個xml/json配置單元表上被觸發，以保存爲orc或另存爲parquet到另一

0熱度

1回答

org.apache.hadoop.hive.ql.io.orc.OrcStruct，org.apache.hadoop.hive.ql.io.orc.OrcSerde $ OrcSerdeRow

當我讀取orcfile並將數據寫入orcfile時，我得到以下錯誤： expected org.apache.hadoop.hive.ql.io.orc.OrcStruct, received org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow MapoutputValue.class是不是正確？ this is my program:

1熱度

2回答

記錄內存緩衝區記錄過大。通過TEZ處理Hive的ORC表時出錯

我們正在嘗試從HIVE（1.2.1）的'ORC'表中讀取數據，並使用'TextInputFormat'將該數據放入表中。有些項目是在原有的數據過大，操作過程中出現以下錯誤： org.apache.hadoop.hive.ql.metadata.HiveException： org.apache.tez.runtime.library.common.sort。 impl.ExternalSorter

0熱度

1回答

蜂巢。檢查現有ORC存儲的條帶大小

我有兩個腳本，它們解析來自原始日誌的數據並將其寫入HIVE的ORC表中。一個腳本創建更多列，另一個腳本更少。這兩個表由date字段分隔。因此，我有不同大小的文件的ORC表。包含大量列的表由許多小文件組成（每個分區內每個文件大約4MB），而少列的表由少量大文件（每個分區內每個文件大約250 MB）組成。我想這是因爲ORC中的stripe.size設置發生的。但我不知道如何檢查現有表格的條紋大小

1熱度

2回答

存儲稀疏數據使用ORC

我試圖將一些數據從Hbase移植到ORC以改善寫入性能。在Hbase中，我的數據總共存儲在10個列中，而不是一個rowkey。現在，當我們使用Hbase時，我們不必擔心這些列的稀疏性。即使在大多數行只有兩列非零值的情況下，也是可以的，因爲Hbase只能存儲2列。我移植數據時的第一個直覺就是將上述列限定符轉換爲與地圖的值關係。但是，這對於檢索來說效率不高。我試圖理解ORC是如何解釋空值的 - 如果