我有幾十個產品的屬性列表,人們關心的是,像關聯與預先定義的屬性,自由文本陳述
- 融資
- 製造質量
- 耐久性
- 銷售經驗
以及來自客戶的數百萬條有關產品的自由文本陳述,例如
「融資很容易,但住房脆弱。」
我想根據它與每個屬性的關聯程度來評分每個自由文本語句,以及這是否是正面關聯或負面關聯。
在給出的例子中,Financing
與Manufacturing quality
有很強的負相關性。
感覺這種類型的問題可能是自然語言編程(NLP)的領域。然而,我花了幾個小時閱讀了OpenNLP和NLTK之類的東西,發現有很多領域特定的術語,我無法找出解決這個特定問題的重點。
所以我的問題三個部分:
- 是NLP解決這一類問題的正確途徑?
- NLP的哪個方面應該專注於學習這個特定的問題?
- 有沒有替代方案我沒有考慮過?
您是否打算將此鏈接發佈到最大熵? http://en.wikipedia.org/wiki/Maximum_entropy_classifier – 2011-12-27 18:10:26