2012-05-22 70 views
-5

我有成千上萬的Cvs,我想搜索以「計算機科學」爲背景的簡歷。Lucene搜索有什麼好的選擇?

因此,我搜索了一下,並知道Lucene執行此項工作,我需要將數據提供給Lucene,並將所有文檔編入索引。

在搜索特定文本(比如'Compuet科學')時,它會導致CV與結果匹配。

爲此,我需要將MSword-93/MSword-2007/PDF轉換爲文本並提供Lucene。

我可以從文本文件MSword2007的,但我無法從2003年MSWORD得到

有很多PDF的作家,但我沒有得到任何PDF閱讀器庫,它可以做到這一點。

請將PDF閱讀器庫文件轉換爲PDF文件並將ms93文件轉換爲文本或請讓我知道是否有任何其他的Lucene搜索。

謝謝,非常感謝您的回答

+4

你在這裏一次問半打問題。請將你的問題的範圍限制在一個明確的主題上。 – deceze

回答

0

您可以使用Apache Solr或直接Tika來提取PDF和MS Word和建立索引的文本。兩者都是Java項目,但您可以從PHP調用它們的服務器。