0
我的nutch版本是2.2.1,它運行良好幾天,但現在它不會抓取任何任何給出如下錯誤。Nutch錯誤「達到的限制,跳過進一步的鏈接」
已達到上限,跳過進一步反向鏈接爲de.ard.www:HTTP/
已達到上限,跳過進一步反向鏈接爲de.rbb-online.mediathek:HTTP/
已達到上限,跳躍的德進一步反向鏈接.rbb-online.www:http/
如何擺脫它?
我的nutch版本是2.2.1,它運行良好幾天,但現在它不會抓取任何任何給出如下錯誤。Nutch錯誤「達到的限制,跳過進一步的鏈接」
已達到上限,跳過進一步反向鏈接爲de.ard.www:HTTP/
已達到上限,跳過進一步反向鏈接爲de.rbb-online.mediathek:HTTP/
已達到上限,跳躍的德進一步反向鏈接.rbb-online.www:http/
如何擺脫它?
這不是一個錯誤。其實這意味着發現比默認設置(db.max.inlinks)更多的鏈接,只有前N個鏈接將被存儲,其餘的將被丟棄。默認的db.max.inlinks設置爲10000.
恕我直言如果你想抓取更多的outlinks頁面。您應該增加db.max.outlinks.per.page設置。在默認情況下,它每頁設置100。