0
我正在使用Amazon EMR Hadoop Hive進行大數據處理。我的日誌文件中的當前數據爲CSV格式。爲了從日誌文件中創建表,我編寫了正則表達式來解析數據並存儲到外部表的不同列中。我知道SerDe可以用來讀取JSON格式的數據,這意味着每個日誌文件行都可以作爲JSON對象。如果我的日誌文件採用JSON格式比較CSV格式,是否有任何Hadoop性能優勢?Amazon EMR JSON
我正在使用Amazon EMR Hadoop Hive進行大數據處理。我的日誌文件中的當前數據爲CSV格式。爲了從日誌文件中創建表,我編寫了正則表達式來解析數據並存儲到外部表的不同列中。我知道SerDe可以用來讀取JSON格式的數據,這意味着每個日誌文件行都可以作爲JSON對象。如果我的日誌文件採用JSON格式比較CSV格式,是否有任何Hadoop性能優勢?Amazon EMR JSON
如果您可以處理表格的輸出(您使用正則表達式創建的),爲什麼還要進行其他處理?儘量避免不必要的東西。
我認爲這裏的主要問題是哪種格式更快閱讀。我相信CSV會比JSON提供更好的速度,但不要聽我的話。 Hadoop真的不在乎。一旦在內存中,它都是字節數組。
你在做什麼樣的處理EMR?也許像http://axemblr.com/tool這樣的東西可能會讓你感興趣。 – ieugen 2012-08-02 10:23:01