nutch

    2熱度

    1回答

    我正在用nutch試驗一些爬網週期,並希望設置分佈式爬網環境。但我想知道如何在生產系統中觸發抓取請求。我讀了關於nutch REST API。這是我的真正選擇嗎?或者我可以通過任何其他選項將nutch作爲連續運行的分佈式服務器運行? 我的首選nutch版本是nutch 1.12。

    2熱度

    1回答

    面對使用nutch和elasticsearch進行爬網時的一些嚴重問題。 我們的應用程序中有兩個數據存儲引擎。 MySql的 Elasticsearch 可以說我有存儲在MySQL數據庫中的URL表10頁的URL。現在我想在運行時從表中獲取這些url並將它們寫入seed,txt用於抓取。我已經將所有這些網址寫入需要,txt一次。現在我的抓取開始了,然後我將這些文檔索引在一個索引中的elastics

    3熱度

    2回答

    我正在使用Nutch抓取某些網站並通過自定義插件(myplugin)的幫助將數據索引到彈性搜索。 我需要從爬網站點存儲在元標記中的信息。因此,爲了實現這一點,我剛剛加入Nutch的-site.xml的屬性如下: <property> <name>plugin.includes</name> <value>protocol-httpclient|myplugin|urlfilte

    2熱度

    2回答

    我不使用Nutch 2.2和數據,我檢索爬行的元標記,如何在Apache的Nutch的爬行提取specefic DIV的HTML值

    1熱度

    1回答

    我們可以用nutch 1.12來使用elasticsearch 2.4.0。我直接使用它,並在索引時拋出錯誤。錯誤類似於: java.lang.IllegalStateException:從不支持的版本接收到的消息:[1.0.0]最小兼容版本是:[2.0.0]。 以前我使用的是elasticsearch 1.7。我也使用了elastic-indexer2插件:https://github.com/

    2熱度

    1回答

    的爬行任務作業狀態在爬行週期,我們有很多的任務/相位像注入,生成,提取,分析,updatedb的,invertlinks,去重和指數工作。 現在我想知道是否有任何方法可以通過除了引用hadoop.log文件以外的任何方式獲取爬網任務(無論是運行還是失敗)的狀態? 更準確地說,我想知道我是否可以跟蹤生成/讀取/解析階段的狀態?任何幫助,將不勝感激。

    2熱度

    1回答

    運行Nutch的服務器我已經在服務器模式下測試的Nutch的運行。現在我想知道是否可以在hadoop集羣(在分佈式環境中)的服務器模式上啓動nutch,並使用nutch REST API向服務器提交爬網請求? 請幫忙。

    2熱度

    2回答

    ,下面的錯誤來了,在mongodb日誌中一個連接接受並立即結束。解決它? $ bin/crawl conf/urls/seeds.txt tuto 1 未指定SOLRURL。跳過索引。 注入種子URL /e/apache-nutch/apache-nutch-2.3.1/runtime/local/bin/nutch注入conf/urls/seeds.txt -crawlId tuto Injec

    2熱度

    1回答

    我想知道nutch服務器在分佈式環境中如何工作?無論它是使用監聽器接收傳入的爬行請求,還是連續運行的服務器?

    1熱度

    1回答

    我試圖建立一個使用Nutch 2.3 + Mongodb + elasticsearch 1.7的網絡爬蟲。我已經在nutch中配置了mongodb商店,並且它完美地工作。然而,當我運行 ./bin/nutch index -all 我得到 IndexingJob: starting SolrIndexerJob: java.lang.RuntimeException: job failed