2014-04-03 54 views
0

有人可以告訴我從哪裏開始爲本地文件開發一個簡單的全文本搜索引擎嗎?如何開發一個簡單的搜索引擎在本地文件中進行全文搜索

我有一臺帶有LAMP的Debian 7服務器,並在其上安裝了一個Windows網絡驅動器。到目前爲止,我正在使用this script向其他本地網絡用戶顯示他們可以從裝入的網絡驅動器下載文件的目錄樹。

但我必須建立一個簡單的搜索引擎,可以索引掛載文件夾中的本地文件的名稱和內容(如果有) - Microsoft doc,docx,xl​​s,xlsx,rtf,txt。搜索必須返回文件的名稱,路徑和最好的文本是否存在搜索詞出現的部分(如果文件有文本)。

難道有人指向我正確的方向,我必須閱讀和學習如何做到這一點?謝謝。

回答

3

爲此,您需要一些工具。你需要一些東西來索引和搜索內容,並且你已經用三個好工具來標記這個問題,。他們每個人都有豐富的教程和示例來幫助您開始。

您需要的另一件事是通過讀取來自所有這些不同文件類型的內容。我建議Apache Tika。這是一個很好的工具包,可以讀取你列出的所有格式,並且可以很好地與Lucene一起使用。

您可以在這個問題上一起看自己使用的例子:Tika in Action book examples Lucene StandardAnalyzer does not work

+0

感謝我會看的文檔。你有使用elasticsearch的經驗嗎? – ispasov

+0

當然,有些。不知道你爲什麼問,雖然... – femtoRgon

+0

我只是想知道,如果你讓我代表你的經驗這些解決方案之間的一些comparizon。 – ispasov

1

你會發現這是很有幫助的,你可能不會。

我有Solr和Nutch設置索引我的本地文件系統,並將它們存儲在Solr中,並有關於如何設置它們的指南。

這將爲您的應用程序提供堅實的後端。

以下是鏈接。前兩作Solr的設置,最後兩個對Nutch的整合

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-tika-extracting-request.html

http://amac4.blogspot.co.uk/2013/07/configuring-nutch-to-crawl-urls.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html

+0

謝謝我會檢查你的指南,即使他們是爲Windows設置。 – ispasov

+0

Linux設置不應該太不同 –