我有一系列文本項目 - 來自MySQL數據庫的原始HTML。我想在這些條目中找到最常用的短語(不是最常見的短語,理想情況下,不強制逐字匹配)。如何從一系列文本條目中提取常見/重要短語
我的例子是Yelp.com任何審查,這表明從幾百指定餐廳的評論的3段,格式爲:
「嘗試漢堡包」(44條)
如,該頁面的「審查要點」部分:
http://www.yelp.com/biz/sushi-gen-los-angeles/
我有NLTK安裝,我已經與它玩耍了一點,但我老老實實的選項淹沒。這似乎是一個相當普遍的問題,我一直無法通過在這裏搜索找到一個簡單的解決方案。
與nltk,它很容易得到bigrams和trigrams,但我正在尋找的是更可能的長度爲7 - 8個字的短語。我還沒有想出如何使nltk(或其他方法)提供這樣的「八度」和以上。 – arronsky 2010-03-16 09:23:39