2011-08-23 14 views

回答

8

一般引用的「介紹性」參考文獻是Manning & Shutze的Foundations of Statistical Natural Language Processing(1999)。雖然全面,相對容易獲得,當然也是一個很好的參考,但這可能會導致對該領域更加隨意的介紹。

你也許可以找到一些在線課程,如Short course on Statistical Methods in NLP

而且也,既然你提到Java中,你可以找到一個通用的 「工具箱」,如

並開始動手接觸NLP的特定區域,例如POS標記或實體提取。
另外值得一提的是,'雖然它與基於Python的NLTK有關,但Natural Language Processing with Python online (and hardcopy) book構成了一個非常實用的指南,可用於常見的NLP任務。

有一點讓人wet目結舌的是NLP:它是一個相當廣泛的學習和實踐領域。學術研究,時間和行業測試實踐和圖書館都很流行。在人們更好地理解NLP的特定應用程序適用於某個特定問題之前,人們可能會浪費大量時間來探索技術,這些技術要麼不成熟,要麼不適合當前的問題。

+1

完美答案。我強烈建議從NLTK開始(Python非常容易),這樣你就可以在不需要編寫大量代碼的情況下使用一堆工具。當你進入大型的Java庫(基本上所有的大部分東西都是用java編寫的)時,需要的知識水平要高得多。另外,如上所述,瞭解您的問題,並縮小您使用哪些nlp工具解決問題! – nflacco

+0

NLTK +1。這是從NLP開始的最簡單的方法。 – Skarab