2012-02-25 67 views

回答

2

nutch模式將id(= url)定義爲唯一鍵。如果這對你不好,那就改變它。在schema.xml對應的線路:

<uniqueKey>url</uniqueKey> 

但更好的解決方案可能是做到以下幾點:如果你能

http://www.example.com 

訪問您的服務器,並通過

http://example.com 

你應該考慮使用正則表達式url篩選器來僅抓取其中的一個,以防止重複。