2010-07-15 102 views
0

我曾見過Nutch和Heritrix抓取方式。它們都具有生成/讀取/更新週期的概念,該週期從一些種子URL開始並在獲取步驟之後迭代結果URL。使用Nutch或Heritrix定向抓取

範圍/過濾邏輯適用於應用於提取的URL的正則表達式。

我想做一些非常具體的事情。 我不想從網頁中提取所有網址,但我寧願基於某些xpath獲取網址。 一個原因是: - 不是所有的網址,可能會被歸類精確的正則表達式 - 我可能會錯過一些網址,這會超出給定REG前 - 我可能要遵循「下一頁」序列以及 - 一個特定的抓取週期可能在每個深度中都有不同的基於xpath的過濾器。

有沒有人用Heritrix的Nutch做過這樣的事情?

感謝 Nayn

回答

0

我試圖創建一個POC與這兩種。我需要outlinks來開始爬行的下一個階段的規則差異。有了heritrix,就沒有辦法保留最後一跳的outlinks,因爲所有outlinks都被丟棄了。對於Nutch來說,沒有辦法將我自己的不返回鏈接等的內部數據結構(如ParseData等)所需的內部鏈接結合起來。此外,它與lucene和相關的索引系統緊密結合。 謝謝 Nayn