我們正在爲客戶重新設計一個基本上處理大量文件的現有系統。針對存儲在S3中的文件設計搜索系統的建議
當前文件(超過500萬)存儲在服務器文件系統中。客戶端希望新系統在S3中存儲文件。 這些文件還具有關聯的元數據(名稱,作者姓名,價格,說明等)。
的搜索功能也是以下是基本要求
- 全文搜索應該可以對文件的描述被redesigned.The。
- 應該可以對文件的其他屬性進行過濾。
此外,基於文件描述,系統還應該能夠給出類似文件的推薦。
我之前沒有創建此類解決方案的經驗,所以請求幫助和建議。 我想對以下解決方案的線路:MongoDB中
- 存儲文件元數據,並使用搜索功能(http://www.mongodb.org/display/DOCS/Full+Text+Search + in + Mongo)
- 使用Amazon DynamoDB.It提供了掃描/查詢數據集的API。
- 利用Lucene/Solr的(我還沒有與這些還沒有工作,我還需要更深入)
有這個項目,我發現,這是非常相似,我需要 http://www.thriftdb.com - 在家裏頁面說它是一個內置搜索的數據存儲。
請讓我知道這個問題應該是一個社區維基。
在此先感謝。
拉法爾Łużyński你知道獅身人面像的工作原理與NoSQL數據庫 – gt5050 2012-03-24 11:59:41
http://sphinxsearch.com/about/你可以看到,他們有支持xml中的nosql。 _非SQL存儲索引。數據也可以以簡單XML格式(稱爲XMLpipe)流式傳輸到批量索引器,或者直接插入增量RT索引_ – 2012-04-07 09:39:24