從Rails應用程序搜索附件（Word，PDF，Excel等）

我的第一篇文章是堆棧溢出，所以請溫柔！我即將爲客戶啓動一個新的Ruby on Rails（3.1）項目。他們的要求之一是有一個搜索引擎，它將索引大約2,000個PDF，Word，Excel和HTML混合的文檔。從Rails應用程序搜索附件（Word，PDF，Excel等）

我曾希望爲使用的思維 - 獅身人面像或Texticle（最流行的https://www.ruby-toolbox.com/categories/rails_search.html），但據我瞭解：

Texticle需要的PostgreSQL。我在MySQL上。
thinking-sphinx不索引文件系統上的文件。
就算我救了我的附件到數據庫，思維，獅身人面像，因爲它需要（根據http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff）

所以我有兩種選擇純文本仍然是行不通的：

你推薦哪種方法？

如果它是一個不同的搜索工具，哪一個？我的要求是非常基本的，所以我真的很喜歡那個很容易設置，並有很多文檔，示例和教程！

如果是解壓縮，您能否推薦常用文件類型的提取器，例如PDF，Word，Excel和HTML？

謝謝大家。非常感謝您的幫助。

2011-10-12 Mike

只是爲了更新這個。我決定去與做法是：

嘗試提取附件的純文本版本到數據庫中的思維 - 獅身人面像讀

具體來說，我會做以下幾點：

看起來好像它會像調用java -jar tika-app-0.10.jar -t [file]一樣簡單，但如果結果變得更復雜，我會發布我的經驗！

2011-10-16 09:24:11 Mike

嗯，我沒有做過的二進制文件索引，但顯然Solr的有支持它看到Indexing files with SPHINX/ultrasphinx和 http://wiki.apache.org/solr/ExtractingRequestHandler有可供Solr的相當多的寶石，太陽黑子似乎成爲一種流行的一個http://outoftime.github.com/sunspot/雖然它似乎太陽黑子不已經建立了對Solr Cells的支持，似乎有一些工作正在進行中https://github.com/tomasc/sunspot_cell有可能有更好的選擇，但這應該給你一個很好的起點。

2011-10-13 10:07:07 maecro

非常感謝您的反饋。我已決定嘗試將純文本版本的附件提取到數據庫中，以便思考 - 獅身人面像根據我的答案閱讀**路線，但您的建議仍然有用。 – Mike

回答