2014-04-04 106 views
0

我正在使用solr搜索引擎來進行文檔回覆中的項目目的。我的數據集是.txt文件格式。但是solr只給出了json,xml,pdf和其他一些文件格式的選項。沒有文本文件的選項。
對於使用.txt文件作爲數據集,我需要對solr進行一些修改嗎?我們可以搜索Solr搜索引擎中的.txt文件嗎?

+0

數據如何存儲在txt中?逗號分隔? – sidgate

回答

0

最有可能你將有空格分隔文件以.txt files.So索引文本文件,你可以寫Python腳本流文檔解決並執行提交。

0

除了txt文件,Solr還可以索引其他幾種文檔格式。詳情請看Apache Tika

0

我發現了快速啓動引導在一個非常有用的線https://lucene.apache.org/solr/5_3_1/quickstart.html

java -classpath /solr-5.0.0/dist/solr-core-5.0.0.jar -Dauto=yes 
-Dc=gettingstarted -Ddata=files -Drecursive=yes org.apache.solr.util.SimplePostTool docs/ 

對我來說特別有用的部分是-Dauto=yes。當此選項打開時,Solr的可以處理許多類型的文件(不要問我爲什麼)

Entering auto mode. File endings considered are xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 

我所知道的是,我打開該選項,而現在我的實例將接受PDF,XML和txt文件。

相關問題