我的第一篇文章是堆棧溢出,所以請溫柔!我即將爲客戶啓動一個新的Ruby on Rails(3.1)項目。他們的要求之一是有一個搜索引擎,它將索引大約2,000個PDF,Word,Excel和HTML混合的文檔。從Rails應用程序搜索附件(Word,PDF,Excel等)
我曾希望爲使用的思維 - 獅身人面像或Texticle(最流行的https://www.ruby-toolbox.com/categories/rails_search.html),但據我瞭解:
- Texticle需要的PostgreSQL。我在MySQL上。
- thinking-sphinx不索引文件系統上的文件。
- 就算我救了我的附件到數據庫,思維,獅身人面像,因爲它需要(根據http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)
所以我有兩種選擇純文本仍然是行不通的:
- 選擇不同的搜索工具
- 嘗試提取附件的純文本版本到數據庫中的思維 - 獅身人面像讀
你推薦哪種方法?
如果它是一個不同的搜索工具,哪一個?我的要求是非常基本的,所以我真的很喜歡那個很容易設置,並有很多文檔,示例和教程!
如果是解壓縮,您能否推薦常用文件類型的提取器,例如PDF,Word,Excel和HTML?
謝謝大家。非常感謝您的幫助。
非常感謝您的反饋。我已決定嘗試將純文本版本的附件提取到數據庫中,以便思考 - 獅身人面像根據我的答案閱讀**路線,但您的建議仍然有用。 – Mike