2012-09-08 68 views
4

是否可以將文本段落傳遞給Mapper類而不是逐行傳遞。我正在尋找一個ParagraphRecordReader實現。段落處理Hadoop

+0

段落有多長?或者你的停產規則是什麼? –

+0

分享到:相關文章:http://stackoverflow.com/questions/2711118/multiple-lines-of-text-to-a-single-map –

回答

1

答案在https://stackoverflow.com/a/5398215/1660002這種要求的答案。但是,您也可以簡單地將配置參數textinputformat.record.delimiter設置爲雙換行符字符串(例如:"\n\n")以解決此問題。

如果您使用這些可配置功能,則可以在Apache Hadoop 0.23.x和2.x版本中以及Cloudera的CDH3和CDH4版本中使用這些可配置功能。