即使URL從seed.txt中刪除（Nutch 2.1）

2013-04-16 19 views 0 likes

網站被抓取我在seed.txt中成功地抓取了url-1，我可以在MySQL數據庫中看到抓取的數據。現在，當我試圖通過在seed.txt中用url-2替換url-1來執行另一個新抓取時，新抓取從抓取步驟開始，它試圖抓取的url是seed.txt中舊的替換url。我不知道從哪裏拿起舊的網址。即使URL從seed.txt中刪除（Nutch 2.1）

我試圖檢查隱藏的種子文件，我沒有找到任何和只有一個文件夾urls/seed.txt在NUTCH_HOME /運行時/本地，我運行我的爬行命令。請告知可能是什麼問題？

來源

2013-04-16 sunskin

回答

您的爬網數據庫包含要爬網的URL列表。除非您刪除原始抓取目錄或在新抓取過程中創建新抓取目錄，否則將使用原始URL列表並使用新URL進行擴展。

來源

2013-04-17 16:24:50 Claude

感謝您的迴應，Claude。我有興趣將每個新抓取數據附加到我在此鏈接後創建的MySQL網頁表中的舊抓取數據中：http://nlp.solutions.asia/?p=180。在每次抓取中，我都抓取不同的網站，並且希望所有抓取的數據都進入相同的MySQL抓取數據庫。所以我不敢刪除原始數據。請建議 – sunskin

相關問題

1. 從nutch 1.3中的crawldb中刪除url？
2. 注入網址到Apache Nutch從MySQL而不是seed.txt
3. 除了我使用Apache Nutch的1.12，我試圖抓取的網址在seed.txt
4. 即使用戶請求，使用.htaccess從url中刪除index.php
5. Nutch沒有抓取seed.txt中的所有網址
6. 從sfml中刪除精靈2.1
7. Nutch-如何刪除舊段？
8. 笨2.1 - 刪除URI
9. Nutch 2.1無法在Mac中設置
10. 從url中刪除www