在Java中恢復解析器

我想解析一個簡歷以獲得不同的標題和內容，其中包括項目符號，段落，URL。我有.doc/.docx格式的簡歷。目前的研究導致在Java中恢復解析器

1.從.doc文件構建一個xml文件，然後
2.使用JDOM構建一個xml解析器。

有沒有其他方法或更好的方法來做到這一點？有些算法可以幫助識別簡歷中的結構？

2014-02-24 akritaag

-1

看起來像你在正確的方向。簡單的方法是：一旦您確定信息並進一步移動，您只需根據+/-步長橫切計算出的空格，並確定結果。

我相信你正在使用NLP方法，它可以幫助你獲得接近的數據，然後你可以根據你的經驗去除噪音。

或簡單去拿一些已經建立。我建議你RChilli CV Parsing或其他像租用或sovren和討論你的需要。我相信你得到一些信息

感謝 -K

2014-02-26 14:37:42

我現在正在使用支持Java中的Word文檔的Apache POI。它更容易在這方面工作。 – akritaag

所以你想使用Apache工具...這是完美的，但你需要帶來很多像Apache的opennlp插件..使用它們，你看到你開始獲取數據 –

我現在試圖實現opennpl.Thank的功能你的頭擡起來 – akritaag

有趣 - 我在我們使用Solr的識別身份我一個解決方案工作。

另一種方法是 - 您可以使用Apache Solr/index文檔並獲取分面搜索。

唯一的挑戰是如何建立圖書館。這將比Apache POI短得多和簡單。

讓我知道你是否需要幫助？

2014-02-27 08:13:45 toprecruiters

我正在閱讀關於solr，但我不太明白它會如何工作。我運行start.jar，然後使用post.jar將一個csv文件編入索引，但我從此卡住了。你也可以解釋我怎樣才能將它導入到我現有的Java項目中？謝謝 – akritaag

回答