nutch

2熱度

1回答

我正在用nutch試驗一些爬網週期，並希望設置分佈式爬網環境。但我想知道如何在生產系統中觸發抓取請求。我讀了關於nutch REST API。這是我的真正選擇嗎？或者我可以通過任何其他選項將nutch作爲連續運行的分佈式服務器運行？我的首選nutch版本是nutch 1.12。

2熱度

1回答

nutch crawled文檔elasticsearch映射中面臨的問題

面對使用nutch和elasticsearch進行爬網時的一些嚴重問題。我們的應用程序中有兩個數據存儲引擎。 MySql的 Elasticsearch 可以說我有存儲在MySQL數據庫中的URL表10頁的URL。現在我想在運行時從表中獲取這些url並將它們寫入seed，txt用於抓取。我已經將所有這些網址寫入需要，txt一次。現在我的抓取開始了，然後我將這些文檔索引在一個索引中的elastics

3熱度

2回答

某些網站的元標記不是索引

我正在使用Nutch抓取某些網站並通過自定義插件（myplugin）的幫助將數據索引到彈性搜索。我需要從爬網站點存儲在元標記中的信息。因此，爲了實現這一點，我剛剛加入Nutch的-site.xml的屬性如下： <property> <name>plugin.includes</name> <value>protocol-httpclient|myplugin|urlfilte

2熱度

2回答

如何通過在apache nutch中爬行來提取html中specefic div的值？

我不使用Nutch 2.2和數據，我檢索爬行的元標記，如何在Apache的Nutch的爬行提取specefic DIV的HTML值

1熱度

1回答

Elasticsearch 2.4.0與nutch的兼容性1.12

我們可以用nutch 1.12來使用elasticsearch 2.4.0。我直接使用它，並在索引時拋出錯誤。錯誤類似於： java.lang.IllegalStateException：從不支持的版本接收到的消息：[1.0.0]最小兼容版本是：[2.0.0]。以前我使用的是elasticsearch 1.7。我也使用了elastic-indexer2插件：https://github.com/

2熱度

1回答

如何獲得在Nutch的

的爬行任務作業狀態在爬行週期，我們有很多的任務/相位像注入，生成，提取，分析，updatedb的，invertlinks，去重和指數工作。現在我想知道是否有任何方法可以通過除了引用hadoop.log文件以外的任何方式獲取爬網任務（無論是運行還是失敗）的狀態？更準確地說，我想知道我是否可以跟蹤生成/讀取/解析階段的狀態？任何幫助，將不勝感激。

2熱度

1回答

如何使用斌/ Nutch的startserver的命令<em>本地</em>對的起它的分佈式環境

運行Nutch的服務器我已經在服務器模式下測試的Nutch的運行。現在我想知道是否可以在hadoop集羣（在分佈式環境中）的服務器模式上啓動nutch，並使用nutch REST API向服務器提交爬網請求？請幫忙。

2熱度

2回答

錯誤：當我嘗試運行時，啓動Apache nutch與mongodb

，下面的錯誤來了，在mongodb日誌中一個連接接受並立即結束。解決它？ $ bin/crawl conf/urls/seeds.txt tuto 1 未指定SOLRURL。跳過索引。注入種子URL /e/apache-nutch/apache-nutch-2.3.1/runtime/local/bin/nutch注入conf/urls/seeds.txt -crawlId tuto Injec

2熱度

1回答

在分佈式模式下工作的nutch服務器

我想知道nutch服務器在分佈式環境中如何工作？無論它是使用監聽器接收傳入的爬行請求，還是連續運行的服務器？

1熱度

1回答

SolrIndexerJob：運行時錯誤

我試圖建立一個使用Nutch 2.3 + Mongodb + elasticsearch 1.7的網絡爬蟲。我已經在nutch中配置了mongodb商店，並且它完美地工作。然而，當我運行 ./bin/nutch index -all 我得到 IndexingJob: starting SolrIndexerJob: java.lang.RuntimeException: job failed