2012-03-24 77 views
1

我們正在爲客戶重新設計一個基本上處理大量文件的現有系統。針對存儲在S3中的文件設計搜索系統的建議

當前文件(超過500萬)存儲在服務器文件系統中。客戶端希望新系統在S3中存儲文件。 這些文件還具有關聯的元數據(名稱,作者姓名,價格,說明等)。

的搜索功能也是以下是基本要求

  1. 全文搜索應該可以對文件的描述被redesigned.The。
  2. 應該可以對文件的其他屬性進行過濾。

此外,基於文件描述,系統還應該能夠給出類似文件的推薦。

我之前沒有創建此類解決方案的經驗,所以請求幫助和建議。 我想對以下解決方案的線路:MongoDB中

  1. 存儲文件元數據,並使用搜索功能(http://www.mongodb.org/display/DOCS/Full+Text+Search + in + Mongo)
  2. 使用Amazon DynamoDB.It提供了掃描/查詢數據集的API。
  3. 利用Lucene/Solr的(我還沒有與這些還沒有工作,我還需要更深入)

有這個項目,我發現,這是非常相似,我需要 http://www.thriftdb.com - 在家裏頁面說它是一個內置搜索的數據存儲。

請讓我知道這個問題應該是一個社區維基。

在此先感謝。

回答

0

亞馬遜爲Lucene/Solr提供了一個定製的AMI,我們一直很高興地在我們的項目中使用它。 Lucene具有強大的索引功能,並以極高的速度執行。我強烈建議使用Apache Lucene/Solr來滿足您的所有搜索需求。

1

關於按屬性搜索文件和過濾,最好的是在filestube中使用的Sphinx搜索引擎(谷歌在幾年前也使用它)。 我不知道它是否會在亞馬遜服務器上工作。

+0

拉法爾Łużyński你知道獅身人面像的工作原理與NoSQL數據庫 – gt5050 2012-03-24 11:59:41

+0

http://sphinxsearch.com/about/你可以看到,他們有支持xml中的nosql。 _非SQL存儲索引。數據也可以以簡單XML格式(稱爲XMLpipe)流式傳輸到批量索引器,或者直接插入增量RT索引_ – 2012-04-07 09:39:24

相關問題