單詞之間相似度最好的WordNet函數是什麼？

我的目標是找到約10,000個單詞的單詞之間的相似性。我使用wordnet庫的「word.path_similarity（otherword）」方法，但我得到的path_similarity的結果在0-0.1範圍內，而不是分佈在0-1範圍內。如何在10,000個隨機單詞之間的相似性都在這個狹窄的範圍內結束？單詞之間相似度最好的WordNet函數是什麼？

有沒有更好的方法來使用WordNet來找出兩個單詞之間的相似性？

來源

2015-04-22 newenthusiast

對於上下文，here's how this is calculated：

Claculate兩個同義詞集/字（含）之間的最短路徑的長度。
返回得分爲1/pathLen不能

因此得分< 0.2指示的路徑長度> 5個步驟。包含兩個輸入同義詞，這意味着它們之間至少有4個同義詞。

這樣說：你的抱怨似乎是「根據這個指標，隨機選擇的兩個單詞是非常一致的不相關！發生了什麼事？那麼，你的相似性指標告訴你，隨機單詞通常不是密切相關的。這應該不會令人驚訝。你爲什麼要計算隨機單詞之間的相似之處？

來源

2015-04-23 16:45:03

我說我的問題錯了，對不起。我試圖找到一組項目的標題之間的相似之處。對於我來說，看到超過80％的標題名稱導致了0.05-0.2的相似性，這很奇怪。由於事先了解項目的具體情況，我預計會有更廣泛的分佈，因此預計類似的項目也會有類似的名稱。但看到標題中的單詞按照這個度量標準是「隨機的」，我很困惑如果WordNet的path_similarity是我正在尋找的函數來檢測兩個單詞在語義上有多相似。 – newenthusiast

單詞之間相似度最好的WordNet函數是什麼？

回答

相關問題