2013-04-16 19 views
0

網站被抓取我在seed.txt中成功地抓取了url-1,我可以在MySQL數據庫中看到抓取的數據。現在,當我試圖通過在seed.txt中用url-2替換url-1來執行另一個新抓取時,新抓取從抓取步驟開始,它試圖抓取的url是seed.txt中舊的替換url。我不知道從哪裏拿起舊的網址。即使URL從seed.txt中刪除(Nutch 2.1)

我試圖檢查隱藏的種子文件,我沒有找到任何和只有一個文件夾urls/seed.txt在NUTCH_HOME /運行時/本地,我運行我的爬行命令。請告知可能是什麼問題?

回答

3

您的爬網數據庫包含要爬網的URL列表。除非您刪除原始抓取目錄或在新抓取過程中創建新抓取目錄,否則將使用原始URL列表並使用新URL進行擴展。

+0

感謝您的迴應,Claude。我有興趣將每個新抓取數據附加到我在此鏈接後創建的MySQL網頁表中的舊抓取數據中:http://nlp.solutions.asia/?p=180。在每次抓取中,我都抓取不同的網站,並且希望所有抓取的數據都進入相同的MySQL抓取數據庫。所以我不敢刪除原始數據。請建議 – sunskin