因此,我正在研究一個具有非常特定的全球站點搜索功能的站點,這些站點使用GSS,正如許多人已經知道的那樣,GSS將在四月份離開。我需要抓取網站並將XML發送到Cloudsearch,但是我對如何解決這個問題感到困惑,並且我沒有發現很多關於在互聯網搜索後使用AWS Cloudsearch構建全球網站搜索的材料幾天。到目前爲止,我正在計劃使用Apache Nutch來抓取該網站,但我真的很感激一些輸入。提前致謝!用AWS Cloudsearch取代Google Site Search
回答
您是否遇到過我們的博客? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited)。我介紹瞭如何使用Nutch和StormCrawler來索引AWS Cloudsearch。
如果您需要搜索託管,我建議Elasticsearch和Elastic Cloud來代替。我發現Cloudsearch速度慢,麻煩而且昂貴,而且StormCrawler和Apache Nutch的Elasticsearch也有更多的資源。
我已閱讀你的第一篇文章,提到Nutch。我非常欣賞Elasticsearch的建議。目前,我在一個網站上工作,並試圖尋找Google Site Search的替代方案,這讓我倍感爭議。你認爲彈性雲將是一個體面的替代品嗎?這很糟糕,但Google似乎在這個特定的市場上留下了huuuuge的空白。再次感謝! –
@EthanStepanian歡迎您。 Elastic Cloud無法幫助抓取本身,但與StormCrawler相結合,這將是一個好方法。另外還有一些基於Apache SOLR的託管解決方案,您可以使用Nutch等其他爬蟲。 –
- 1. Google Site Search XML API分頁
- 2. Site Search for POST-Based Search Engines
- 3. Google Site Search - 如何擺脫品牌?
- 4. Google Site Search無法返回結果
- 5. 在Drupal 7中實現Google Site Search
- 6. 如何使用Google Site Search中的類別
- 7. 用於Google Site Search的C#封裝或樣本
- 8. AWS CloudSearch拋出EndpointConnectionError異常
- 9. Google Site Search C#API不返回任何促銷活動
- 10. Google Site Search - 完全自定義搜索輸入
- 11. AWS Cloudsearch奇怪的問題
- 12. AWS Elasticsearch和AWS CloudSearch有什麼區別?
- 13. AWS CloudSearch:1域中的不同文檔?
- 14. 使用aws cloudsearch進行多個排除
- 15. 使用AWS CloudSearch查找類似詞語
- 16. Google Site Data fetching
- 17. AWS CloudSearch建議(自動完成)
- 18. Google Search Appliance中的Google Search Appliance搜索
- 19. Google Custom Search with mod_rewrite search term
- 20. Google Site Apps腳本
- 21. 使用AWS Java SDK將文檔從Amazon S3上傳到CloudSearch
- 22. Google Custom Search API
- 23. Google Search API ruby
- 24. Google Search Appliances
- 25. Google API for Search
- 26. AWS CloudSearch導出/下載數據
- 27. AWS CloudSearch錯誤無需智能迴應
- 28. AWS Cloudsearch電子郵件查詢
- 29. 如何等待AWS Cloudsearch索引文檔?
你有沒有讀過http://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.html? –
@RicardoC在過去的幾天裏,我一直在閱讀它們,但是我不知道專門討論如何使用爬蟲。 –
Amazon CloudSearch不是網絡爬蟲。 –