2011-01-24 89 views
2

現狀:NLP:語言分析技術和算法

我希望執行一個給定文本的深層次分析這將意味着:

  1. 能夠提取關鍵詞和分配的重要性級別基於上下文使用。
  2. 能夠根據表達的情緒得出結論。
  3. 能夠在教育水平暗示(雖然單詞這確實有點事,但更自動化)
  4. 能夠混合和搭配,短語,並找出一定的溝通模式
  5. 能夠獲取大量的含義出來的它,因此它可以被量化並且可以被機器應答處理。

問:要採用這種什麼樣的算法和技術需要

有沒有一個軟件可以幫助我做到這一點?

回答

3

當你想知道如何做到這一點時,請聯繫DARPA,CIA,FBI以及所有其他美國情報機構。像這些項目的合同是目前研究項目,價值數百萬美元的研究經費。 ;)

這就是說你需要分層處理它並分析每一層。對於第2項和第3項,您會發現在n元組上訓練支持向量機(嘗試,3)會有所幫助。對於1和4,你需要更深入的分析。使用像NLTK這樣的工具,或其他許多解析器之一,找到句子和相關單詞中的主題詞。還可以使用WordNet(來自普林斯頓) 來找出最常用的感覺並將其作爲關鍵詞。

5是極具挑戰性,我想聰明的利用這些數據上面可以給你想要的東西,但你需要使用所有的語法知識和編程知識,它仍然是非常粗糙顆粒。

1

聽起來你可能會開放一些實驗,在這種情況下,工具包方法可能是最好的?如果是這樣,請查看用於Python的NLTK自然語言工具包。根據Apache許可協議開放源代碼,並且有一些關於它的優秀書籍(包括來自O'Reilly的一本書,它也在創作共用許可證下在線發佈)。

+0

而正如cpfohl所說,你要做的事情很難。有了一些領域限制和實驗,你可能會做一些有用的事情。 – winwaed 2011-01-24 15:55:40