我是NLP的新手,我正在尋找一些起點,包括一些教程,文檔或示例代碼。 我被告知研究處理自然文本的可能性,從中提取一些結構化數據。 例如,我想從下面的語句中提取(註釋)身高和體重。 「他身高6英尺,體重200磅」或 「他的身高是6英尺,體重是200」等 我已經看過UIMA,但它看起來像一個自己創建的沒有訓練能力的REGEX詞典。 所以簡而言之,我可以使用什麼Java框架來創建一個可以訓練的註釋引擎! 對此的任何幫助(指針)將非常感激。 謝謝NLP新手,關於註釋的問題
回答
如果你真的想用機器學習來訓練你的註釋器,那麼GATE可能是你最好的選擇。請看他們的指南中有關machine learning的章節。
由於您詢問了指針:LingPipe(已在上面提到過),OpenNLP和Stanford NLP distributions。
注意:如果Python是一個選項,您可以使用Natural Language Toolkit。
+1,最好的開始是使用NLP編程框架,因爲 - 在這個階段 - 初學者不需要浪費時間來進入解決方案的體系結構細節,比如GATE或apache UIMA。 – Skarab 2010-12-01 11:56:00
@Skarab我不同意,@NLP聲明他希望創建一個用於提取事實的註釋引擎,而這正是GATE和UIMA所設計的。上面提到的圖書館將進行詞彙和語法分析,但是之後還有很多工作要做。 – Stompchicken 2010-12-01 15:33:35
你可以在這裏嘗試一下: http://deagol.cs.illinois.edu:8080
- 1. 關於@Override註釋的問題
- 2. 關於錨標記的新手問題
- 3. 關於硒的新手問題
- 4. 關於PascalCase的新手問題
- 5. 關於MvcContrib的新手問題TestHelpers
- 6. OpenGL新手關於模型的問題
- 7. 關於連接的新手QT問題
- 8. 關於C++數組的新手問題
- 9. php:關於modrewrite的新手問題
- 10. 關於教義的新手問題
- 11. 關於C庫的新手問題
- 12. 關於註釋行
- 13. 問題 - 關於註銷
- 14. 目標C:關於分配,保留和釋放的新手問題
- 15. 關於關注WPF的一些問題
- 16. 凹陷關係註釋問題
- 17. 新手Django關於對象關係的問題
- 18. 關於新手和State/ST相關問題的STArray文檔
- 19. 關於註釋的說明
- 20. @Autowire註釋問題
- 21. mapview註釋問題
- 22. JPA註釋問題
- 23. @Override註釋問題
- 24. Django註釋問題
- 25. 問題與註釋
- 26. MKMapView註釋位置更新問題
- 27. 關於釋放對象的問題
- 28. 帶有註釋問題的MKMapView問題
- 29. Django的註釋問題
- 30. 帶有註釋的問題
BTW。要了解信息提取技術的最初技術,我建議閱讀Sunita Sarawagi最近的一項調查 - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab 2010-12-01 17:49:43