0
因此,我試圖通過HUE Web界面將我的日誌文件導入到使用Hive的hadoop羣集。在日誌文件的格式使用日誌文件和HUE在配置單元中創建表
"/log/apache/apache91" "10.93.123.135" "8081" "12.93.145.7" "12.93.123.7" "/index.html" "" "114" "111211" "21111" "200" "200" "[14/Mar/2013:23:00:15 -0400]" "-" "-" "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)" "-" "-" "-" "-"
所以我使用引號作爲分隔符使用在色彩上自動創建表的嘗試。但是這給了我每第二列一個空列。我明白爲什麼這是因爲分隔符而發生的。有沒有一種方法來導入沒有空列的數據,或者我可以刪除空列,或者我可以從現有的表中創建一個新表,並提取唯一的我想要的數據。
我有很多數據要導入。如果有人對我有更好的解決方案,我會接受。
所以我決定在導入之前預先處理數據。將它從引號分隔改爲製表符分隔.Hive與TSV文件沒有問題。 – Jessica