簡單的方法來分類詞如「很多」，「一些」，「一些」

我正在工作，需要能夠分類修飾符像「很多」，「一些」，「很多」，「一些」等納入最低百分比簡單的方法來分類詞如「很多」，「一些」，「一些」

例如"a lot" - >80%

現在，我想簡單地創建涉及這些改性劑和數值如大詞典

a few - >15%

some - >10%

lots - >80%

然而，這是很費力的，可能不會涵蓋所有方案。有沒有一種更簡單的方法來做到這一點，或者是否有一個已經存在的NLP工具用於此目的 - 最好是在Python中（或者已經存在的數據庫）

2016-03-28 abagshaw

相似性實際上是NLP中的一個難題。我建議您使用Word2Vec並生成每個單詞的單詞嵌入。然後你可以比較每個單詞對的距離，看看能否比你的方式更好。提高詞嵌入效率的關鍵是選擇一個足夠大的語料庫，並在接近問題的區域指定語料庫。

2016-03-28 20:39:38

您的意思是將一些「'''映射到'15％'，然後用Word2Vec查找類似於''一些''的單詞，比如''一點點''嗎？ – abagshaw

我的意思是你可以通過word2vec獲得「一些」，「一點」的矢量，看看ti是否有效。只是一個想法，你可以嘗試。 –

這很有趣。我會給你一個鏡頭。你知道是否有一個語料庫或數據收集可以說100個最常用的詞，如「lot」，「few」，這些詞與某些數值有關嗎？如果我有一個起點，我可以從那裏使用word2vec。 – abagshaw

回答