3
我想使用python進行文檔搜索。由於Java託管是一個限制因素,所以Solr沒有去。飛快移動:索引MS文檔,PDF
所以,看起來很明顯的選擇。但似乎不是本機索引doc或pdf文件(如Solr可以)。有什麼辦法讓它直接索引這些文件?
我想使用python進行文檔搜索。由於Java託管是一個限制因素,所以Solr沒有去。飛快移動:索引MS文檔,PDF
所以,看起來很明顯的選擇。但似乎不是本機索引doc或pdf文件(如Solr可以)。有什麼辦法讓它直接索引這些文件?
飛快移動只需要從這些文件中提取的文本。雖然Whoosh庫不會爲你提取,但有些Python庫會爲你提取文本,比如pdf礦工,catdoc或antiword。
更多信息請參見這兩個討論: