我正在尋找一種方法來查找域中的所有網頁和子域。例如,在uoregon.edu域中,我想查找該域中和所有子域中的所有網頁(例如,cs.uoregon.edu)。找到域中的所有網頁及其子域
我一直在看nutch,我認爲它可以完成這項工作。但是,nutch似乎下載了整個網頁並將它們編入索引以備後續搜索。但是,我想要一個只能掃描網頁中屬於同一個域的URL的抓取工具。此外,nutch似乎將linkdb保存爲序列化格式。我如何閱讀它?我嘗試了solr,它可以讀取nutch收集的數據。但是,我不認爲我需要solr,因爲我沒有執行任何搜索。我需要的只是屬於給定域的URL。
謝謝
您可以使用http://www.crawlmysite.in – Tushar 2014-07-09 13:33:53