我曾見過Nutch和Heritrix抓取方式。它們都具有生成/讀取/更新週期的概念,該週期從一些種子URL開始並在獲取步驟之後迭代結果URL。使用Nutch或Heritrix定向抓取
範圍/過濾邏輯適用於應用於提取的URL的正則表達式。
我想做一些非常具體的事情。 我不想從網頁中提取所有網址,但我寧願基於某些xpath獲取網址。 一個原因是: - 不是所有的網址,可能會被歸類精確的正則表達式 - 我可能會錯過一些網址,這會超出給定REG前 - 我可能要遵循「下一頁」序列以及 - 一個特定的抓取週期可能在每個深度中都有不同的基於xpath的過濾器。
有沒有人用Heritrix的Nutch做過這樣的事情?
感謝 Nayn