nutch

    4熱度

    1回答

    根據Nutch消息,Nutch的最新版本2.3.1與Solr 4.10.3兼容,這是Solr的非常舊版本。 我們可以整合Solr 6和Nutch 2.3.1。如果將Solr 6集成,將會有什麼缺點?有人試過這個?

    1熱度

    1回答

    我必須提取一些由Nutch在默認情況下不提供的Apache Nutch 2.3.1抓取數據的元數據信息。爲此我必須編寫一個插件。爲了學習的目的,我以Nutch tutorial爲起點。我知道這個教程是爲1.x版本。我已經改變了所有必要的分類,併成功地建立了它。以下是我所遵循的步驟。 創建類似$ NUTCH_HOME一個的/ src /插件/爲myplugin 複製指數的元數據,以我的plugina

    2熱度

    1回答

    我試圖從apache nutch索引到單節點ES集羣並得到這個錯誤。 org.elasticsearch.transport.RemoteTransportException:無法從流所致 反序列化異常響應: org.elasticsearch.transport.TransportSerializationException:無法從流在 org.elasticsearch.transport 反

    0熱度

    1回答

    在二手車銷售商網站上有成千上萬的汽車廣告 的這是一個典型的廣告 - >alfa-romeo 如果我抓取所有這些廣告的網頁,所有diferent車,我指數所有這些無用的文字,我不想要的,我想只抓取像 標題,描述,而不是整個頁面的車公里,功率CV(HP), 進出口使用Nutch的自它與solr很好的整合,但nutch準備抓取所有東西,而且在插件方面沒有找到一個好的解決我的問題。 已經使用nutch-c

    2熱度

    2回答

    我試圖從抓取鏈接新聞文章: - Article 1 Article 2 但我沒有收到文離開頁面到索引中的內容字段(elasticsearch)。 成果爬行的是: - { "took": 2, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0

    0熱度

    1回答

    我必須從網絡上抓取一些數據並執行一些分析。對於爬網,我決定使用Apache Nutch 2.3.1並進行分析,我決定使用Apache Spark。現在我該如何整合Nutch和solr。根據Nutch website,我已經知道它可以支持spark 1.4.1。有人可以確認我的設計desicion是正確的,第二我沒有找到這兩個整合的教程。可以soneone指導

    1熱度

    1回答

    我是Apache Nutch的新手,我想知道是否可以抓取網頁的選定區域。例如,請選擇一個特定的div並僅在該div中抓取內容。任何幫助,將不勝感激。謝謝!

    18熱度

    1回答

    我試圖抓取一個網站,更具體地說,使用ManifoldCF的Google Site具有SAML身份驗證,並將抓取的數據索引到Apache Solr中。但是當我抓取URL時,它會給我302重定向到登錄頁面,然後說RESPONSECODENOTINDEXABLE。 我不知道我是否正確認證或沒有。在manifoldCF中,我們有HTTP basic認證選項,NTLM authentication和Sess

    0熱度

    1回答

    問題是,可能存在不具有特定圖像擴展名的圖像。例如,Nutch2正在爬取以.ashx結尾的頁面,但仍然是圖片。 有沒有一種方法可以使用HTML標頭過濾器排除圖片:content-type: images/*或者其他等價物,但不基於url模式(regex-urlfilter.txt)?

    2熱度

    1回答

    我跟着https://wiki.apache.org/nutch/NutchTutorial並試圖安裝和集成Nutch 1.12與Solr 5.5.2。我按照教程中提到的步驟安裝了Nutch,但是嘗試通過運行下面的命令與solr集成。它拋出了下面的例外。 倉/ Nutch的索引http://10.209.18.213:8983/solr爬行/ crawldb/-linkdb爬行/ linkdb /