2011-07-16 83 views
1

我目前正在爲我的python程序尋找文本索引器。我入圍Solr,一個Lucene項目和原生Python的Whoosh。我搜索了很多關於doc,docx和pdf文件支持的文檔,Solr一直指着我Tika包,其中一個版本與Solr集成。支持doc,docx和pdf文件的文本索引器(for python)

結果沒有提到某些條款,如果任何軟件包有內置支持三種格式。 Whoosh和Solr支持他們嗎?哪個其他開源索引器本地讀取這些格式?

回答

3

使用Solr 1.4或更高版本,您可以隨時上傳和索引Word和PDF文件;見:http://wiki.apache.org/solr/ExtractingRequestHandler

Solr的ExtractingRequestHandler使用提卡允許用戶二進制文件上傳到Solr和Solr的有從中提取文本,然後建立索引。

+0

我發現extractOnly = true有用,因爲我將我的文本存儲在sqldb中,僅使用Solr進行索引/搜索。 – Jegschemesch

相關問題