2011-12-16 121 views
1

我有幾十個產品的屬性列表,人們關心的是,像關聯與預先定義的屬性,自由文本陳述

  • 融資
  • 製造質量
  • 耐久性
  • 銷售經驗

以及來自客戶的數百萬條有關產品的自由文本陳述,例如

「融資很容易,但住房脆弱。」

我想根據它與每個屬性的關聯程度來評分每個自由文本語句,以及這是否是正面關聯或負面關聯。

在給出的例子中,FinancingManufacturing quality有很強的負相關性。

感覺這種類型的問題可能是自然語言編程(NLP)的領域。然而,我花了幾個小時閱讀了OpenNLP和NLTK之類的東西,發現有很多領域特定的術語,我無法找出解決這個特定問題的重點。

所以我的問題三個部分:

  • 是NLP解決這一類問題的正確途徑?
  • NLP的哪個方面應該專注於學習這個特定的問題?
  • 有沒有替代方案我沒有考慮過?

回答

1

是的,這是一個名爲Sentiment analysis的NLP問題。情感分析是一個活躍的研究領域,具有不同的方法和任務,其中許多其他NLP方法必須一起工作,所以它肯定不是NLP中最容易開始使用的領域。

對該領域的學術研究或多或少的近期調查可在Pang & Lee (2008)中找到。

2

您可能會覺得方便的資源是SentiWordNet。 (http://sentiwordnet.isti.cnr.it/)這就像是一本詞典,其詞彙具有情感等級。它會告訴你它認爲一個詞是積極的,消極的還是客觀的程度。

然後,您可以將其與一些nltk代碼結合起來,通過您的句子查看您想要將情緒與情緒相關聯的字詞。所以你會編寫一個腳本來獲得一些有意義的文本塊,它們圍繞着你正在查看的單詞,可能是句子或子句級別。然後你可以在周圍的單詞中找到另一件事,並從SentiWordNet中獲取所有的情感分數。

我有一些舊代碼可以做到這一點,如果你願意,可以放在github上,但是你仍然需要自己申請SentiWordNet。

2

我想你的問題更多的是關聯而不僅僅是分類。現在推進這個假設:

NLP是解決這類問題的正確途徑嗎?

是的。

NLP的哪個方面應該專注於針對這個特定問題的學習?

是否有替代我還沒有考慮?

深入研究自動機理論與NLP相結合將會對您有所幫助,它幫助我掌握了像OpenNLP這樣的實現。

+0

您是否打算將此鏈接發佈到最大熵? http://en.wikipedia.org/wiki/Maximum_entropy_classifier – 2011-12-27 18:10:26