2014-04-08 55 views
0

我有記錄是這樣的:是否可以使用Hadoop Streaming處理多行記錄?

Name: Alan Kay 
Email: [email protected] 
Date: 09-09-2013 

Name: Marvin Minsky 
Email: [email protected] 
City: Boston, MA 
Date: 09-10-2013 

Name: Alan Turing 
City: New York City, NY 
Date: 09-10-2013 

他們多,但並不總是相同的行數,而且他們通常用換行分隔。我如何將它轉換爲下面的輸出?

Alan Kay|[email protected]||09-09-2013 
Marvin Minsky|[email protected]|Boston,MA|09-10-2013 
Alan Turing||New York City, NY|09-10-2013 

Apache Pig將每行記錄爲一條記錄,所以它不適合執行此任務。 I'm aware of this blog post on processing multi-line records,但如果有更簡單的解決方案,我不想深入研究Java。有沒有辦法使用Hadoop Streaming(或者像mrjob這樣的框架)來解決這個問題?

回答

相關問題