2
我有兩個內容相同但網址不同的網頁。一個URL以http://www.example.com開頭,另一個以http://example.com開頭。在使用Solrdedup刪除Solr中的重複數據之後。我發現這兩個人都在那裏。有人知道這裏發生了什麼嗎?爲什麼Nutch Solrdedup無法刪除重複的網頁
我有兩個內容相同但網址不同的網頁。一個URL以http://www.example.com開頭,另一個以http://example.com開頭。在使用Solrdedup刪除Solr中的重複數據之後。我發現這兩個人都在那裏。有人知道這裏發生了什麼嗎?爲什麼Nutch Solrdedup無法刪除重複的網頁
nutch模式將id(= url)定義爲唯一鍵。如果這對你不好,那就改變它。在schema.xml
對應的線路:
<uniqueKey>url</uniqueKey>
但更好的解決方案可能是做到以下幾點:如果你能
http://www.example.com
訪問您的服務器,並通過
http://example.com
你應該考慮使用正則表達式url篩選器來僅抓取其中的一個,以防止重複。