回答
Solr本身不具有網絡抓取功能。
Nutch是Solr的「事實上的」爬蟲(然後是一些)。
Solr 5+事實上現在可以做網絡爬行了! http://lucene.apache.org/solr/
較舊的Solr版本不會單獨進行網頁爬行,因爲歷史上它是一個提供全文搜索功能的搜索服務器。它建立在Lucene之上。
如果需要使用其他Solr的項目,那麼你有多種選擇,包括抓取網頁:
- Nutch的 - http://lucene.apache.org/nutch/
- Websphinx - http://www.cs.cmu.edu/~rcm/websphinx/
- JSpider - http://j-spider.sourceforge.net/
- Heritrix的 - http://crawler.archive.org/
如果你想要使用Lucene或SOLR提供的搜索工具,您需要從網頁抓取結果中創建索引。
見這也:
防守Nutch的! Nutch也有一個基本的網絡前端,它可以讓你查詢你的搜索結果。根據您的要求,您甚至可能不需要打擾SOLR。如果您使用Nutch/SOLR組合,您應該能夠利用最近完成的工作來整合SOLR和Nutch ... http://issues.apache.org/jira/browse/NUTCH-442
我一直在使用Nutch和Solr在我的最新項目上,它似乎工作得很好很好。
如果您使用的是Windows機器,那麼我強烈建議您遵循Jason Riffel給出的'No cygwin'指示!
是的,我與其他職位同意在這裏,使用Apache Nutch的
斌/ Nutch的抓取網址-solr http://localhost:8983/solr/ -depth 3 -topN 5
雖然你的Solr的版本有比賽Nutch的正確版本,因爲舊版本的Solr的存儲指數以不同的格式
我知道它已經有一段時間,但如果別人正在搜索Solr的履帶和我一樣,有一個名爲Norconex HTTP Collector
一個新的開源爬蟲的Solr 5開始支持簡單的webcrawling(Java Doc)。如果想搜索,Solr是工具,如果你想抓取,Nutch/Scrapy更好:)
要想得到它並運行,你可以看看here。然而,這裏是如何得到它,並在同一行運行:
java
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar
-Dauto=yes
-Dc=gettingstarted -> collection: gettingstarted
-Ddata=web -> web crawling and indexing
-Drecursive=3 -> go 3 levels deep
-Ddelay=0 -> for the impatient use 10+ for production
org.apache.solr.util.SimplePostTool -> SimplePostTool
http://datafireball.com/ -> a testing wordpress blog
這裏的爬蟲是非常「幼稚」,在這裏您可以找到this的Apache Solr的GitHub庫的所有代碼。
下面是響應的樣子:
SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059
- 1. Scrapy網絡爬行不好
- 2. 網絡爬蟲
- 3. C++網絡爬蟲
- 4. PHP網絡爬蟲
- 5. Python網絡爬蟲
- 6. java網絡爬蟲
- 7. 網絡爬蟲類
- 8. Python網絡爬行和存儲到MySQL
- 9. Erlang中的並行HTTP網絡爬蟲
- 10. 蟒蛇Scrapy網絡爬行和刮
- 11. 需要網絡爬行幫助
- 12. 最佳網絡圖爬行速度?
- 13. Python簡單的網絡爬蟲錯誤(無限循環爬行)
- 14. Groovy和Grails中的網絡爬蟲每天爬行
- 15. Java 8 CompletedFuture網絡爬蟲不爬行一個URL
- 16. 網絡爬蟲在哪裏獲取他們的網站列表進行爬網?
- 17. 自動網絡爬蟲
- 18. 網絡爬蟲的功能
- 19. 網絡爬蟲,反饋?
- 20. 網絡爬蟲的Java
- 21. 遞歸網絡爬蟲perl
- 22. 簡單的網絡爬蟲
- 23. Python中的網絡爬蟲
- 24. 需要網絡爬蟲
- 25. 網絡爬蟲文本雲
- 26. 硒與python網絡爬蟲
- 27. 網絡爬蟲從Android Market
- 28. 網絡爬蟲應用
- 29. 網絡爬蟲不打印
- 30. 網絡爬蟲提取
你能詳細說明«Solr 5+事實上現在可以做網絡爬行»嗎?在整個文檔中我沒有看到任何爬行功能。 – taharqa