0
網站被抓取我在seed.txt中成功地抓取了url-1,我可以在MySQL數據庫中看到抓取的數據。現在,當我試圖通過在seed.txt中用url-2替換url-1來執行另一個新抓取時,新抓取從抓取步驟開始,它試圖抓取的url是seed.txt中舊的替換url。我不知道從哪裏拿起舊的網址。即使URL從seed.txt中刪除(Nutch 2.1)
我試圖檢查隱藏的種子文件,我沒有找到任何和只有一個文件夾urls/seed.txt在NUTCH_HOME /運行時/本地,我運行我的爬行命令。請告知可能是什麼問題?
感謝您的迴應,Claude。我有興趣將每個新抓取數據附加到我在此鏈接後創建的MySQL網頁表中的舊抓取數據中:http://nlp.solutions.asia/?p=180。在每次抓取中,我都抓取不同的網站,並且希望所有抓取的數據都進入相同的MySQL抓取數據庫。所以我不敢刪除原始數據。請建議 – sunskin