2010-08-13 38 views
3

我需要我的搜索索引基於Azure/Lucene.NET實現。話雖如此,我對Solr和Hadoop知之甚少,或者他們提供給Linux的人羣。在Azure和Lucene.NET上構建分佈式索引。我應該學習Solr和Hadoop嗎?

由於我不知道我面前的學習曲線,我會告訴你我在找什麼,也許你可以告訴我該如何度過我的時間。

我感興趣的是從我們的系統索引不斷增長的一批電子郵件。隨着消息的發送或接收,他們需要被搜索。這意味着索引可能會變得很大,這就是爲什麼我們在考慮雲存儲。考慮到我是Azure的家人,管理層建議我們使用Lucene.NET。

你認爲什麼是我花時間的最佳方式:學習如何讓Lucene.NET索引我的文檔,或查看Solr/Hadoop的實現。

回答

1

如果不知道源語料庫的規模(我們在近實時應用程序中對幾個TB進行操作),我可以分享一些我們的經驗。我們主要是一個.NET商店,我們發現使用SolrNet等工具可以非常容易地使用Solr,而且我們的開發人員也可以輕鬆學習。

使用Solr的好處很多:從明顯的例如面,一個簡單,靈活的API,如果你需要一個等等;事實上它有更多的活躍的社區,並具有最新和最大的功能修復(比較 Lucene.net)。重要的是,我們可以使用Solr與商品機器線性地進行線性縮放(抱歉,不能對使用雲進行比較),但考慮到我們用於碎片的機器(幾乎爲零)成本,我無法想象使用Azure或AWS會更便宜。

希望有所幫助。

+3

如果有人需要知道「cf」的含義(我只是查了一下):http://en.wikipedia.org/wiki/Cf。 – LamonteCristo 2010-08-15 13:57:35

1

如果你可以通過HTTP與你的索引機通信,我建議你使用Solr。您只需更改配置文件即可輕鬆設置Solr服務器,無需任何編程。它可以很好地縮放,請參閱:Scaling Lucene and Solr。目前正在開發Solr Cloud,這將使縮放Solr更容易,並支持一些類似hadoop的功能。

相關問題