2011-10-12 32 views
4

我的第一篇文章是堆棧溢出,所以請溫柔!我即將爲客戶啓動一個新的Ruby on Rails(3.1)項目。他們的要求之一是有一個搜索引擎,它將索引大約2,000個PDF,Word,Excel和HTML混合的文檔。從Rails應用程序搜索附件(Word,PDF,Excel等)

我曾希望爲使用的思維 - 獅身人面像或Texticle(最流行的https://www.ruby-toolbox.com/categories/rails_search.html),但據我瞭解:

所以我有兩種選擇純文本仍然是行不通的:

  1. 選擇不同的搜索工具
  2. 嘗試提取附件的純文本版本到數據庫中的思維 - 獅身人面像讀

你推薦哪種方法?

如果它是一個不同的搜索工具,哪一個?我的要求是非常基本的,所以我真的很喜歡那個很容易設置,並有很多文檔,示例和教程!

如果是解壓縮,您能否推薦常用文件類型的提取器,例如PDF,Word,Excel和HTML?

謝謝大家。非常感謝您的幫助。

回答

1

只是爲了更新這個。我決定去與做法是:

嘗試提取附件的純文本版本到數據庫中的思維 - 獅身人面像讀

具體來說,我會做以下幾點:

  • 使用思維 - 獅身人面像
  • 使用subexec gem打電話...
  • ... Tika命令行

看起來好像它會像調用java -jar tika-app-0.10.jar -t [file]一樣簡單,但如果結果變得更復雜,我會發布我的經驗!

2

嗯,我沒有做過的二進制文件索引,但顯然Solr的有支持它看到Indexing files with SPHINX/ultrasphinxhttp://wiki.apache.org/solr/ExtractingRequestHandler有可供Solr的相當多的寶石,太陽黑子似乎成爲一種流行的一個http://outoftime.github.com/sunspot/雖然它似乎太陽黑子不已經建立了對Solr Cells的支持,似乎有一些工作正在進行中https://github.com/tomasc/sunspot_cell有可能有更好的選擇,但這應該給你一個很好的起點。

+0

非常感謝您的反饋。我已決定嘗試將純文本版本的附件提取到數據庫中,以便思考 - 獅身人面像根據我的答案閱讀**路線,但您的建議仍然有用。 – Mike

相關問題