1
我目前正在爲我的python程序尋找文本索引器。我入圍Solr,一個Lucene項目和原生Python的Whoosh。我搜索了很多關於doc,docx和pdf文件支持的文檔,Solr一直指着我Tika包,其中一個版本與Solr集成。支持doc,docx和pdf文件的文本索引器(for python)
結果沒有提到某些條款,如果任何軟件包有內置支持三種格式。 Whoosh和Solr支持他們嗎?哪個其他開源索引器本地讀取這些格式?
我發現extractOnly = true有用,因爲我將我的文本存儲在sqldb中,僅使用Solr進行索引/搜索。 – Jegschemesch