2012-09-23 72 views
0

我是hadoop的新手。請幫助我。插入Hive表

我有一個不斷更新的日誌文件,我需要將此日誌文件存儲到hive中的表中。有可能在我想要或在任何時候將在日誌文件中生成的新行添加到此表中定期?

回答

0

Hive支持插入語句,所以應該可以的。在同一時間 - 我不會推薦這種與蜂巢工作的方式。我會假設我們談論嚴重的日誌流 - 否則我們不會使用Hive。
蜂巢是數據加載速度出衆,當我們只是附加的文件複製到它被定義爲蜂巢的外部表中的一些HDFS目錄
所以我的建議使用日誌旋轉(或其它技術)來創建新的文件,每個X分鐘或Y兆字節然後將它們簡單地複製到HDFS中。

0

Hive並沒有很好地支持這一點。我建議考慮使用Flume將日誌文件存儲到HDFS中,然後讓Hive表指向該位置並使用適當的SerDe來訪問它。

要麼是這樣,要麼是旋轉日誌文件,並且只有在寫入完成後纔將其存儲到Hive中。