Q

NLP新手，關於註釋的問題

2010-11-30 141 views 2 likes

2

我是NLP的新手，我正在尋找一些起點，包括一些教程，文檔或示例代碼。我被告知研究處理自然文本的可能性，從中提取一些結構化數據。例如，我想從下面的語句中提取（註釋）身高和體重。「他身高6英尺，體重200磅」或「他的身高是6英尺，體重是200」等我已經看過UIMA，但它看起來像一個自己創建的沒有訓練能力的REGEX詞典。所以簡而言之，我可以使用什麼Java框架來創建一個可以訓練的註釋引擎！對此的任何幫助（指針）將非常感激。謝謝NLP新手，關於註釋的問題

2010-11-30 Sap

+0

BTW。要了解信息提取技術的最初技術，我建議閱讀Sunita Sarawagi最近的一項調查 - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab 2010-12-01 17:49:43

A

回答

2

如果你真的想用機器學習來訓練你的註釋器，那麼GATE可能是你最好的選擇。請看他們的指南中有關machine learning的章節。

2010-11-30 10:22:49 Stompchicken

3

由於您詢問了指針：LingPipe（已在上面提到過），OpenNLP和Stanford NLP distributions。

注意：如果Python是一個選項，您可以使用Natural Language Toolkit。

2010-11-30 06:23:06 crnlx

+1

+1，最好的開始是使用NLP編程框架，因爲 - 在這個階段 - 初學者不需要浪費時間來進入解決方案的體系結構細節，比如GATE或apache UIMA。 – Skarab 2010-12-01 11:56:00

+0

@Skarab我不同意，@NLP聲明他希望創建一個用於提取事實的註釋引擎，而這正是GATE和UIMA所設計的。上面提到的圖書館將進行詞彙和語法分析，但是之後還有很多工作要做。 – Stompchicken 2010-12-01 15:33:35

0

我會使用NER。下面是輸出我看到您輸入文本：

你可以在這裏嘗試一下： http://deagol.cs.illinois.edu:8080

2017-08-30 17:55:17 Daniel

相關問題