0
我們使用nutch 1.6來抓取網頁。根據nutch配置,應該給出種子列表和域url-filter來遍歷指定的域。但是,如果我們想要抓取新發現的網址(如果它們的擴展名是co.uk)(我們可以通過將新發現的網址域添加到文件 - 或db,無論 - ),停止搜索器,更新域url-過濾器和種子列表,然後重新啓動它。但是我們如何動態地做到這一點,而不是停止爬蟲?Nutch - 獲取新發現的域
在此先感謝。
P.S:co.uk域擴展只是一個例子,我們也可以添加多個擴展來允許。