1
我使用Dumbo來處理一些Hadoop Streaming作業。我有一堆JSON字典,每個字典都包含一篇文章(多行文本)和一些元數據。我知道Hadoop在提供大文件時性能最好,所以我想將所有JSON字典連接成一個文件。Hadoop Streaming多行輸入
問題是,我不知道如何讓Hadoop將每個字典/文章作爲單獨的值讀取,而不是在換行符上拆分。我如何告訴Hadoop使用自定義記錄分隔符?或者,也許我可以將所有的JSON字典放入一個列表數據結構中,讓Hadoop讀取它?
或者編碼字符串(base64?)會刪除所有的新行,普通的「讀者」將能夠處理它?