4
是否可以將文本段落傳遞給Mapper類而不是逐行傳遞。我正在尋找一個ParagraphRecordReader實現。段落處理Hadoop
是否可以將文本段落傳遞給Mapper類而不是逐行傳遞。我正在尋找一個ParagraphRecordReader實現。段落處理Hadoop
答案在https://stackoverflow.com/a/5398215/1660002這種要求的答案。但是,您也可以簡單地將配置參數textinputformat.record.delimiter
設置爲雙換行符字符串(例如:"\n\n"
)以解決此問題。
如果您使用這些可配置功能,則可以在Apache Hadoop 0.23.x和2.x版本中以及Cloudera的CDH3和CDH4版本中使用這些可配置功能。
段落有多長?或者你的停產規則是什麼? –
分享到:相關文章:http://stackoverflow.com/questions/2711118/multiple-lines-of-text-to-a-single-map –