0
in nutch,我正在尋找一種方法來獲取頁面內容的格式,因爲它(線,新行和段落)。獲取頁面內容的格式,因爲它是在nutch
即將到來的代碼並沒有幫助,因爲它刪除了頁面的所有格式。
Parse parse = parseResult.get(content.getUrl());
parse.getText()
即使
BufferedReader br = new BufferedReader(new InputStreamReader(new
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null)
LOG.info("After br: " +br.readLine());
不是解決方案,因爲它返回格式化的內容,但與HTML標籤。
我真的希望它是原始格式,以便能夠將它發送到將提取所需內容的方法。
謝謝