2017-06-19 30 views
0

當我在Hortonworks上的Hive中執行查詢時,我收到大量這些消息。CorruptStatistics - 使用Parquet文件時的警告消息

信息:org.apache.parquet.CorruptStatistics:忽視統計 因爲這個文件之前1.8.0創建,看到拼花251

  1. 如何解決這一問題?
  2. 如果它不是固定的,我會在沒有這些警告的情況下正確地獲得結果的影響有什麼影響?
+0

爲什麼修復INFO消息? –

回答

0
  1. 你可以通過使用Parquet生產者重寫文件來解決這個問題。 Hive,即使用更新的parquet-mr庫。然後它會用正確的統計數據填充文件。
  2. 您從此Parquet中生成的結果是正確的。該警告只會通知您,在處理該文件時,不能在計算中使用所有優化(圖形)。在之前的parquet-mr版本中有一個計算統計數據的錯誤。這現在已經修復,但要有正確的統計信息(僅用於查詢優化),您需要使用更新的版本重新編寫所有文件。文件中的數據本身不受此錯誤的影響。
+0

但是,這些只是Hive生成的鑲木地板文件。我在配置單元中創建table語句有這個 - '存儲爲parquet'和'tblproperties(「parquet.compress」=「SNAPPY」)'。所以,我不明白第一點。 – Sudha