如果要提取基於HTML標籤的內容,你可以看看XPath的過濾器插件:http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/ 你可以寫一個XPath查詢,並在插件配置它來提取你需要的信息。
另一個選擇是編寫一個插件(就像你現在正在做的那樣)並使用HTML/XML解析器來獲取信息。 這裏是當我需要提取一些內容進行特定的div我做了什麼:
@Override
public NutchDocument filter(NutchDocument doc, Parse parse, Text url, CrawlDatum datum, Inlinks inlinks) throws IndexingException {
//LOG.info("filter init: ");
Metadata metadata = parse.getData().getParseMeta();
String fullContent = metadata.get("fullcontent");
Document document = Jsoup.parse(fullContent);
Element contentwrapper = document.select("div#content").first();
//LOG.info("fullcontent");
//LOG.info(contentwrapper);
// Add field
doc.add("contentwrapper", contentwrapper.text());
return doc;
}
好吧,是我不好......第二個問題就解決了: - http://stackoverflow.com/questions/5123757/how-to-the-html-content-from-nutch - http://stackoverflow.com/questions/10007178/how-do-i-save-the-origin-html-file-with- Apache的Nutch的 –