nutch

4熱度

1回答

根據Nutch消息，Nutch的最新版本2.3.1與Solr 4.10.3兼容，這是Solr的非常舊版本。我們可以整合Solr 6和Nutch 2.3.1。如果將Solr 6集成，將會有什麼缺點？有人試過這個？

1熱度

1回答

我必須提取一些由Nutch在默認情況下不提供的Apache Nutch 2.3.1抓取數據的元數據信息。爲此我必須編寫一個插件。爲了學習的目的，我以Nutch tutorial爲起點。我知道這個教程是爲1.x版本。我已經改變了所有必要的分類，併成功地建立了它。以下是我所遵循的步驟。創建類似$ NUTCH_HOME一個的/ src /插件/爲myplugin 複製指數的元數據，以我的plugina

2熱度

1回答

從apache nutch索引到elasticsearch時出現的問題

我試圖從apache nutch索引到單節點ES集羣並得到這個錯誤。 org.elasticsearch.transport.RemoteTransportException：無法從流所致反序列化異常響應： org.elasticsearch.transport.TransportSerializationException：無法從流在 org.elasticsearch.transport 反

0熱度

1回答

索引Solr中的結構與Apache Nutch的

在二手車銷售商網站上有成千上萬的汽車廣告的這是一個典型的廣告 - >alfa-romeo 如果我抓取所有這些廣告的網頁，所有diferent車，我指數所有這些無用的文字，我不想要的，我想只抓取像標題，描述，而不是整個頁面的車公里，功率CV（HP），進出口使用Nutch的自它與solr很好的整合，但nutch準備抓取所有東西，而且在插件方面沒有找到一個好的解決我的問題。已經使用nutch-c

2熱度

2回答

Nutch的抓取工具無法檢索新聞文章內容

我試圖從抓取鏈接新聞文章： - Article 1 Article 2 但我沒有收到文離開頁面到索引中的內容字段（elasticsearch）。成果爬行的是： - { "took": 2, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0

0熱度

1回答

我該如何使用Apache Spark和Apache Nutch

我必須從網絡上抓取一些數據並執行一些分析。對於爬網，我決定使用Apache Nutch 2.3.1並進行分析，我決定使用Apache Spark。現在我該如何整合Nutch和solr。根據Nutch website，我已經知道它可以支持spark 1.4.1。有人可以確認我的設計desicion是正確的，第二我沒有找到這兩個整合的教程。可以soneone指導

1熱度

1回答

如何選擇nutch中特定標籤的數據

我是Apache Nutch的新手，我想知道是否可以抓取網頁的選定區域。例如，請選擇一個特定的div並僅在該div中抓取內容。任何幫助，將不勝感激。謝謝！

18熱度

1回答

如何使用ManifoldCF或nutch抓取具有SAML認證的網站？

我試圖抓取一個網站，更具體地說，使用ManifoldCF的Google Site具有SAML身份驗證，並將抓取的數據索引到Apache Solr中。但是當我抓取URL時，它會給我302重定向到登錄頁面，然後說RESPONSECODENOTINDEXABLE。我不知道我是否正確認證或沒有。在manifoldCF中，我們有HTTP basic認證選項，NTLM authentication和Sess

0熱度

1回答

Nutch 2從抓取中排除內容類型圖像

問題是，可能存在不具有特定圖像擴展名的圖像。例如，Nutch2正在爬取以.ashx結尾的頁面，但仍然是圖片。有沒有一種方法可以使用HTML標頭過濾器排除圖片：content-type: images/*或者其他等價物，但不基於url模式（regex-urlfilter.txt）？

2熱度

1回答

Nutch 1.12 exception java.io.IOException：No FileSystem for scheme：http

我跟着https://wiki.apache.org/nutch/NutchTutorial並試圖安裝和集成Nutch 1.12與Solr 5.5.2。我按照教程中提到的步驟安裝了Nutch，但是嘗試通過運行下面的命令與solr集成。它拋出了下面的例外。倉/ Nutch的索引http://10.209.18.213:8983/solr爬行/ crawldb/-linkdb爬行/ linkdb /