我需要處理自定義csv文件作爲輸入並將csv文件寫回HDFS。我可以直接在真正發生地圖縮小類的地方做這個嗎?在hadoop應用程序中讀取和寫入CSV文件
爲了處理我的csv文件,我使用了opencsv庫。我看過一些教程,他們使用inputformat和outputformat標誌來指定處理用戶定義格式的java類。有人可以提供關於如何使用CSV文件的建議嗎?
我想堅持hadoop所提供的,否則我自己實現的輸入和輸出格式可能會使我的處理變慢。
我需要處理自定義csv文件作爲輸入並將csv文件寫回HDFS。我可以直接在真正發生地圖縮小類的地方做這個嗎?在hadoop應用程序中讀取和寫入CSV文件
爲了處理我的csv文件,我使用了opencsv庫。我看過一些教程,他們使用inputformat和outputformat標誌來指定處理用戶定義格式的java類。有人可以提供關於如何使用CSV文件的建議嗎?
我想堅持hadoop所提供的,否則我自己實現的輸入和輸出格式可能會使我的處理變慢。
問題是如果你需要多行csv或沒有。
如果您不需要它 - 您可以使用vanilla TextInputFormat和TextOutputFormat,並在映射器中使用opencsv來分析行。對於輸出TextOutputFormat也很好
如果你需要多行 - 你必須做一些黑客來組裝邏輯記錄。您可以爲它創建自己的輸入格式,或者在映射器中執行。
你能鏈接到你正在引用的教程嗎? –
http://blog.aggregateknowledge.com/2011/08/30/custom-inputoutput-formats-in-hadoop-streaming/,我必須說,我無法找到我提到的確切的一個,清除了我的緩存瀏覽器,再次找不到確切的博客。但類似於這個 – Bob