關聯與預先定義的屬性，自由文本陳述

我有幾十個產品的屬性列表，人們關心的是，像關聯與預先定義的屬性，自由文本陳述

以及來自客戶的數百萬條有關產品的自由文本陳述，例如

「融資很容易，但住房脆弱。」

我想根據它與每個屬性的關聯程度來評分每個自由文本語句，以及這是否是正面關聯或負面關聯。

在給出的例子中，Financing與Manufacturing quality有很強的負相關性。

感覺這種類型的問題可能是自然語言編程（NLP）的領域。然而，我花了幾個小時閱讀了OpenNLP和NLTK之類的東西，發現有很多領域特定的術語，我無法找出解決這個特定問題的重點。

所以我的問題三個部分：

2011-12-16 Eric J.

是的，這是一個名爲Sentiment analysis的NLP問題。情感分析是一個活躍的研究領域，具有不同的方法和任務，其中許多其他NLP方法必須一起工作，所以它肯定不是NLP中最容易開始使用的領域。

對該領域的學術研究或多或少的近期調查可在Pang & Lee (2008)中找到。

2011-12-16 23:29:55 tobigue

您可能會覺得方便的資源是SentiWordNet。（http://sentiwordnet.isti.cnr.it/）這就像是一本詞典，其詞彙具有情感等級。它會告訴你它認爲一個詞是積極的，消極的還是客觀的程度。

然後，您可以將其與一些nltk代碼結合起來，通過您的句子查看您想要將情緒與情緒相關聯的字詞。所以你會編寫一個腳本來獲得一些有意義的文本塊，它們圍繞着你正在查看的單詞，可能是句子或子句級別。然後你可以在周圍的單詞中找到另一件事，並從SentiWordNet中獲取所有的情感分數。

我有一些舊代碼可以做到這一點，如果你願意，可以放在github上，但是你仍然需要自己申請SentiWordNet。

2011-12-17 17:53:10

我想你的問題更多的是關聯而不僅僅是分類。現在推進這個假設：

NLP是解決這類問題的正確途徑嗎？

是的。

NLP的哪個方面應該專注於針對這個特定問題的學習？

是否有替代我還沒有考慮？

深入研究自動機理論與NLP相結合將會對您有所幫助，它幫助我掌握了像OpenNLP這樣的實現。

2011-12-17 19:35:58 samridhi

您是否打算將此鏈接發佈到最大熵？ http://en.wikipedia.org/wiki/Maximum_entropy_classifier – 2011-12-27 18:10:26

回答