2010-07-24 104 views
1

我使用Dumbo來處理一些Hadoop Streaming作業。我有一堆JSON字典,每個字典都包含一篇文章(多行文本)和一些元數據。我知道Hadoop在提供大文件時性能最好,所以我想將所有JSON字典連接成一個文件。Hadoop Streaming多行輸入

問題是,我不知道如何讓Hadoop將每個字典/文章作爲單獨的值讀取,而不是在換行符上拆分。我如何告訴Hadoop使用自定義記錄分隔符?或者,也許我可以將所有的JSON字典放入一個列表數據結構中,讓Hadoop讀取它?

或者編碼字符串(base64?)會刪除所有的新行,普通的「讀者」將能夠處理它?

回答

1

在連接JSON文件時,您可以用每個字典中的spaecs替換所有換行符。除了作爲空白字符外,Newline在JSON中沒有任何特殊含義。