0
我有記錄是這樣的:是否可以使用Hadoop Streaming處理多行記錄?
Name: Alan Kay
Email: [email protected]
Date: 09-09-2013
Name: Marvin Minsky
Email: [email protected]
City: Boston, MA
Date: 09-10-2013
Name: Alan Turing
City: New York City, NY
Date: 09-10-2013
他們多,但並不總是相同的行數,而且他們通常用換行分隔。我如何將它轉換爲下面的輸出?
Alan Kay|[email protected]||09-09-2013
Marvin Minsky|[email protected]|Boston,MA|09-10-2013
Alan Turing||New York City, NY|09-10-2013
Apache Pig將每行記錄爲一條記錄,所以它不適合執行此任務。 I'm aware of this blog post on processing multi-line records,但如果有更簡單的解決方案,我不想深入研究Java。有沒有辦法使用Hadoop Streaming(或者像mrjob這樣的框架)來解決這個問題?
鏈接斷開... –