2016-03-28 32 views
1

我正在工作,需要能夠分類修飾符像「很多」,「一些」,「很多」 ,「一些」等納入最低百分比簡單的方法來分類詞如「很多」,「一些」,「一些」

例如"a lot" - >80%

現在,我想簡單地創建涉及這些改性劑和數值如大詞典

a few - >15%

some - >10%

lots - >80%

然而,這是很費力的,可能不會涵蓋所有方案。有沒有一種更簡單的方法來做到這一點,或者是否有一個已經存在的NLP工具用於此目的 - 最好是在Python中(或者已經存在的數據庫)

回答

1

相似性實際上是NLP中的一個難題。我建議您使用Word2Vec並生成每個單詞的單詞嵌入。然後你可以比較每個單詞對的距離,看看能否比你的方式更好。提高詞嵌入效率的關鍵是選擇一個足夠大的語料庫,並在接近問題的區域指定語料庫。

+0

您的意思是將一些「'''映射到'15%',然後用Word2Vec查找類似於''一些''的單詞,比如''一點點''嗎? – abagshaw

+0

我的意思是你可以通過word2vec獲得「一些」,「一點」的矢量,看看ti是否有效。只是一個想法,你可以嘗試。 –

+0

這很有趣。我會給你一個鏡頭。你知道是否有一個語料庫或數據收集可以說100個最常用的詞,如「lot」,「few」,這些詞與某些數值有關嗎?如果我有一個起點,我可以從那裏使用word2vec。 – abagshaw

相關問題