0
我使用Apache Nutch來爬取網站。在抓取時,我希望nutch忽略多個url模式,如http://www.youtube.com/..so ...,http://www.twitter.com/so ..等。如何配置Apache Nutch忽略某些url模式
我知道如何配置regex-urlfilter.txt文件來抓取特定的url。
但我不知道如何配置nutch忽略某些url模式?
我使用Apache Nutch來爬取網站。在抓取時,我希望nutch忽略多個url模式,如http://www.youtube.com/..so ...,http://www.twitter.com/so ..等。如何配置Apache Nutch忽略某些url模式
我知道如何配置regex-urlfilter.txt文件來抓取特定的url。
但我不知道如何配置nutch忽略某些url模式?
鏈接是死的,它重定向到主頁感。 –