Amazon EMR JSON

我正在使用Amazon EMR Hadoop Hive進行大數據處理。我的日誌文件中的當前數據爲CSV格式。爲了從日誌文件中創建表，我編寫了正則表達式來解析數據並存儲到外部表的不同列中。我知道SerDe可以用來讀取JSON格式的數據，這意味着每個日誌文件行都可以作爲JSON對象。如果我的日誌文件採用JSON格式比較CSV格式，是否有任何Hadoop性能優勢？Amazon EMR JSON

來源

2012-08-01 Povilas

如果您可以處理表格的輸出（您使用正則表達式創建的），爲什麼還要進行其他處理？儘量避免不必要的東西。

我認爲這裏的主要問題是哪種格式更快閱讀。我相信CSV會比JSON提供更好的速度，但不要聽我的話。 Hadoop真的不在乎。一旦在內存中，它都是字節數組。

來源

2012-08-01 15:44:04 ieugen

你在做什麼樣的處理EMR？也許像http://axemblr.com/tool這樣的東西可能會讓你感興趣。 – ieugen 2012-08-02 10:23:01

回答

相關問題