Crawler4j - 許多URL被丟棄/未處理（輸出中缺少）

我正在運行crawler4j以查找一百萬個URL的狀態（http響應）代碼。我還沒有設置任何過濾器來過濾要處理的URL。
我對90％的URL得到了正確的迴應，但輸出中缺少10％的URL。
它們甚至不出現在Webcrawler擴展類的handlePageStatusCode（）方法中。可能由於各種問題而未處理它們。
是否有可能找到那些缺失的URL來重新處理？我們是否可以改進抓取過程而不錯過任何網址？Crawler4j - 許多URL被丟棄/未處理（輸出中缺少）

來源

2014-02-16 user1746666

如果你發現我的答案合適，你能接受嗎？ – Chaiavi