2010-11-30 141 views
2

我是NLP的新手,我正在尋找一些起點,包括一些教程,文檔或示例代碼。 我被告知研究處理自然文本的可能性,從中提取一些結構化數據。 例如,我想從下面的語句中提取(註釋)身高和體重。 「他身高6英尺,體重200磅」或 「他的身高是6英尺,體重是200」等 我已經看過UIMA,但它看起來像一個自己創建的沒有訓練能力的REGEX詞典。 所以簡而言之,我可以使用什麼Java框架來創建一個可以訓練的註釋引擎! 對此的任何幫助(指針)將非常感激。 謝謝NLP新手,關於註釋的問題

+0

BTW。要了解信息提取技術的最初技術,我建議閱讀Sunita Sarawagi最近的一項調查 - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab 2010-12-01 17:49:43

回答

2

如果你真的想用機器學習來訓練你的註釋器,那麼GATE可能是你最好的選擇。請看他們的指南中有關machine learning的章節。

3

由於您詢問了指針:LingPipe(已在上面提到過),OpenNLPStanford NLP distributions

注意:如果Python是一個選項,您可以使用Natural Language Toolkit

+1

+1,最好的開始是使用NLP編程框架,因爲 - 在這個階段 - 初學者不需要浪費時間來進入解決方案的體系結構細節,比如GATE或apache UIMA。 – Skarab 2010-12-01 11:56:00

+0

@Skarab我不同意,@NLP聲明他希望創建一個用於提取事實的註釋引擎,而這正是GATE和UIMA所設計的。上面提到的圖書館將進行詞彙和語法分析,但是之後還有很多工作要做。 – Stompchicken 2010-12-01 15:33:35