使用Nutch或Heritrix定向抓取

我曾見過Nutch和Heritrix抓取方式。它們都具有生成/讀取/更新週期的概念，該週期從一些種子URL開始並在獲取步驟之後迭代結果URL。使用Nutch或Heritrix定向抓取

範圍/過濾邏輯適用於應用於提取的URL的正則表達式。

我想做一些非常具體的事情。我不想從網頁中提取所有網址，但我寧願基於某些xpath獲取網址。一個原因是： - 不是所有的網址，可能會被歸類精確的正則表達式 - 我可能會錯過一些網址，這會超出給定REG前 - 我可能要遵循「下一頁」序列以及 - 一個特定的抓取週期可能在每個深度中都有不同的基於xpath的過濾器。

有沒有人用Heritrix的Nutch做過這樣的事情？

感謝 Nayn

來源

2010-07-15 Nayn

我試圖創建一個POC與這兩種。我需要outlinks來開始爬行的下一個階段的規則差異。有了heritrix，就沒有辦法保留最後一跳的outlinks，因爲所有outlinks都被丟棄了。對於Nutch來說，沒有辦法將我自己的不返回鏈接等的內部數據結構（如ParseData等）所需的內部鏈接結合起來。此外，它與lucene和相關的索引系統緊密結合。謝謝 Nayn

來源

2010-07-28 11:41:15 Nayn

使用Nutch或Heritrix定向抓取

回答

相關問題