0
我已經遞歸爬取一個網站,並收集所有的鏈接/子鏈接,即它提到的網址。現在我想它將所有html內容轉儲到elasticsearch。索引網址使用nutch注入網址內容
我正在經歷的Nutch tutorial,發現下面的方式來做到這一點:
2. Inject the URLs into the Crawldb
nutch inject seed/urls.txt
3. Generate URLs to fetch
bin/nutch generate -topN 40
4. Fetch the pages
bin/nutch fetch -all
在做的,我得到以下錯誤:
$ ./nutch inject seed/urls.txt
Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]
在這裏,在urls.txt我有把所有的網頁鏈接分開新行。 我不知道如何提取所有數據並推送到ES使用nutch和無法找到任何參考鏈接要做,需要指針。
檢查你需要指定'crawldb'路徑通常是'爬行/ crawldb'但實際上取決於名義注入命令的輸出你選擇了。 –