我正在使用最新版本的Crawler4j來抓取某些供稿網址。我已經傳遞了一些種子URL以及文檔ID,並且我還將深度設置爲零,因爲我只想要該頁面的內容。Crawler4j將null作爲parentURL,並將其作爲parentDocID在URL重定向中爲零
問題是我無法獲取這些種子URL的parentdocid和父URL。我想知道與原始網址關聯的重定向網址。
我使用page.getWebURL().getParentUrl();
來獲取父網址。
更詳細的說明http://code.google.com/p/crawler4j/issues/detail?id=163
任何人有類似的問題?
我再次嘗試使用不同的網址,但結果仍然相同。 controller.addSeed(「feeds.reuters.com/~r/reuters/bankruptcyNews/~3/es0kEUT8gI0 /」,321);
OUTPUT: -
ParentDocId 0 的DocID 322 父頁空
UPDATE:--------
我通過crawler4j代碼去了,暫時固定我的問題。
-------- PageFetcher.java ---------
if (header != null) {
String movedToUrl = header.getValue();
movedToUrl = URLCanonicalizer.getCanonicalURL(movedToUrl, toFetchURL);
fetchResult.setMovedToUrl(movedToUrl);
webUrl.setParentUrl(webUrl.getURL()); //My Custom Code to add Parent URL.
/*This won't work due to collision with next
document ID which needs to be unique.
webUrl.setParentDocid(webUrl.getDocid());*/
}
感謝您加入JAVA。 – Pratik