針對存儲在S3中的文件設計搜索系統的建議

我們正在爲客戶重新設計一個基本上處理大量文件的現有系統。針對存儲在S3中的文件設計搜索系統的建議

當前文件（超過500萬）存儲在服務器文件系統中。客戶端希望新系統在S3中存儲文件。這些文件還具有關聯的元數據（名稱，作者姓名，價格，說明等）。

的搜索功能也是以下是基本要求

此外，基於文件描述，系統還應該能夠給出類似文件的推薦。

我之前沒有創建此類解決方案的經驗，所以請求幫助和建議。我想對以下解決方案的線路：MongoDB中

存儲文件元數據，並使用搜索功能（http://www.mongodb.org/display/DOCS/Full+Text+Search + in + Mongo）
使用Amazon DynamoDB.It提供了掃描/查詢數據集的API。
利用Lucene/Solr的（我還沒有與這些還沒有工作，我還需要更深入）

有這個項目，我發現，這是非常相似，我需要 http://www.thriftdb.com - 在家裏頁面說它是一個內置搜索的數據存儲。

請讓我知道這個問題應該是一個社區維基。

在此先感謝。

2012-03-24 gt5050