Hadoop Streaming多行輸入

我使用Dumbo來處理一些Hadoop Streaming作業。我有一堆JSON字典，每個字典都包含一篇文章（多行文本）和一些元數據。我知道Hadoop在提供大文件時性能最好，所以我想將所有JSON字典連接成一個文件。Hadoop Streaming多行輸入

問題是，我不知道如何讓Hadoop將每個字典/文章作爲單獨的值讀取，而不是在換行符上拆分。我如何告訴Hadoop使用自定義記錄分隔符？或者，也許我可以將所有的JSON字典放入一個列表數據結構中，讓Hadoop讀取它？

或者編碼字符串（base64？）會刪除所有的新行，普通的「讀者」將能夠處理它？

2010-07-24 erikcw

在連接JSON文件時，您可以用每個字典中的spaecs替換所有換行符。除了作爲空白字符外，Newline在JSON中沒有任何特殊含義。

2010-08-16 21:55:40

回答