2014-02-24 31 views
0

我想解析一個簡歷以獲得不同的標題和內容,其中包括項目符號,段落,URL。我有.doc/.docx格式的簡歷。目前的研究導致在Java中恢復解析器

1.從.doc文件構建一個xml文件,然後
2.使用JDOM構建一個xml解析器。

有沒有其他方法或更好的方法來做到這一點? 有些算法可以幫助識別簡歷中的結構?

回答

-1

看起來像你在正確的方向。 簡單的方法是: 一旦您確定信息並進一步移動,您只需根據+/-步長橫切計算出的空格,並確定結果。

我相信你正在使用NLP方法,它可以幫助你獲得接近的數據,然後你可以根據你的經驗去除噪音。

或簡單去拿一些已經建立。我建議你RChilli CV Parsing或其他像租用或sovren和討論你的需要。我相信你得到一些信息

感謝 -K

+1

我現在正在使用支持Java中的Word文檔的Apache POI。它更容易在這方面工作。 – akritaag

+0

所以你想使用Apache工具...這是完美的,但你需要帶來很多像Apache的opennlp插件..使用它們,你看到你開始獲取數據 –

+0

我現在試圖實現opennpl.Thank的功能你的頭擡起來 – akritaag

0

有趣 - 我在我們使用Solr的識別身份我一個解決方案工作。

另一種方法是 - 您可以使用Apache Solr/index文檔並獲取分面搜索。

唯一的挑戰是如何建立圖書館。這將比Apache POI短得多和簡單。

讓我知道你是否需要幫助?

+0

我正在閱讀關於solr,但我不太明白它會如何工作。我運行start.jar,然後使用post.jar將一個csv文件編入索引,但我從此卡住了。你也可以解釋我怎樣才能將它導入到我現有的Java項目中?謝謝 – akritaag