nutch

    0熱度

    1回答

    我在CentOS 6.7虛擬機上安裝了Apache Nutch,並將其配置爲將輸出保存到MongoDB中。 但問題是它沒有抓取正確的URL或者它沒有返回正確的URL。你認爲這可能是因爲網站的安全性。 我的conf /正則表達式,urlfilter.txt有以下條目: # accept anything else +^http://*.* seed.txt(只是用於測試目的)具有 [[emai

    1熱度

    1回答

    我試圖設置Apache Nutch和Apache Solr,因此我們的網站可以進行內部網站搜索。我遵循我的指導,儘管他們非常有用,但如果發生錯誤並且大多數看起來已經過時,他們缺乏做什麼。 我使用JDK 131,Nutch的2.3.1,和Solr 6.5.1 這從沒有root用戶我的行動順序 sudo wget [java url] to /opt sudo tar xvf java.tar.gz

    1熱度

    1回答

    我正在嘗試構建一個託管在CentOS 7機器上的搜索工具,該工具應該對掛載的NFS導出目錄進行索引和搜索。我發現Nutch + Solr是最好的選擇。我很難配置這個網址,因爲這不會搜索任何http位置。 的安裝位於在/ mnt 所以我seeds.txt看起來是這樣的: [[email protected] bin]# cat /root/Desktop/apache-nutch-1.13/urls

    0熱度

    1回答

    我使用Nutch的1.13和ES 2.4.5抓取特定網站,並建立一個替代谷歌網站搜索的。我很新,所以我沒有偏離默認的安裝/配置/等。在一天結束的時候,我有,我想,一組標準字段在我的ES指數: _index, _type, _id, url, title, content 和其他幾個人。只有url,title和content對我來說是有用的 - 我只需要爲我的網站全文搜索。但是,我希望在ES中包

    0熱度

    1回答

    我在本地模式下運行Apache Nutch 1.12。 我需要編輯種子文件以刪除子域並添加一些新域,並希望從頭開始重新抓取。 問題是每當我重新開始爬行爬行重新開始從我停止它,這是我去除的子域中間。 我停止了通過殺死java進程(kill -9)的抓取 - 我試圖在bin目錄中創建一個.STOP文件,但沒有工作,所以我用kill。 現在每當我重新開始抓取時,我可以從輸出中看到它正在重新啓動停止作業的

    0熱度

    1回答

    我試圖設置Nutch 2.3與Elasticsearch 5.4。問題出在Nutch,因爲我無法注入我的網址。 Hadoop的日誌顯示以下警告: 控制檯: aurora apache-nutch-2.3.1 # runtime/local/bin/nutch inject urls/seed.txt InjectorJob: starting at 2017-06-14 17:08:28 In

    0熱度

    2回答

    我正在嘗試使用Nutch 2.3與HBase 0.94.14抓取整個特定網站(忽略外部鏈接)。 我已經按照一步一步的教程(可以找到它here)如何設置和使用這些工具。但是,我一直未能實現我的目標。而不是抓取我在seed.txt文件中寫入URL的整個網站,Nutch只在第一輪中檢索該基本URL。我需要進一步抓取,以便Nutch檢索更多網址。 問題是我不知道爲了抓取整個網站需要多少輪,所以我需要一種方

    0熱度

    1回答

    我注意到在每次Nutch抓取過程中,發送到Solr的索引都不一致。有時會顯示網頁的最新更改,有時會顯示較舊的更改。 原因 注意到,Nutch的是從一箇舊的段到Solr給索引。 目前的解決方案 刪除讀取前所有舊片段,似乎解決問題。 問題 想知道是否有或這種方法的任何影響我的理解,這是不正確。還想知道爲什麼Nutch不會在抓取過程中自動刪除舊版細分。 謝謝。

    0熱度

    1回答

    有沒有什麼辦法可以只生成未取回的網址,而不是基於Nutch 2.x中的分數?

    0熱度

    1回答

    我不知道爲什麼,但Nutch 1.13未能將數據索引到ES(v2.3.3)。這是爬行,這很好,但是當談到時間指數ES它給我這個錯誤消息: Indexer: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865) at org.apache.nutch.in