我一直在使用網絡爬蟲Heritrix最近在我的公司工作,經過一段時間的搜索和測試,我找不到如何解決我們的需求。找到網絡跟蹤到heritrix的網絡列表
我們希望每天在cron中自動運行heritrix來抓取網頁列表,我們想要做的是檢查該網絡的任何鏈接是否指向我們域列表中的網頁。困難的部分,並沒有找到辦法是記錄所有跟蹤到指向我們的域名的鏈接。
由於作業的日誌文件存儲所有包含一些信息但沒有跟蹤的鏈接。一個例子是,當作業完成後,運行一個腳本來作爲列表中的一個域的grep,因此如果它在抓取日誌中找到「brazzers」,它應該在另一個日誌中顯示從開始到結束的整個跟蹤的結果:
2015-10-25T20:18:58.369Z 200 91 http://cdn1.ads.brazzers.com/robots.txt XLEP http://cdn1.ads.brazzers.com/ text/plain的#021 20151025201857643 + 726 SHA1:CPA63O5POU3CVLCH3VDDIMBJCCWRVLPC - -
是否有可能做到這一點?或者其他的方式?覺得很愚蠢的這個東西,我不是編程很好
非常感謝你提前
恩裏克。