2015-04-22 48 views
0

我的目標是找到約10,000個單詞的單詞之間的相似性。我使用wordnet庫的「word.path_similarity(otherword)」方法,但我得到的path_similarity的結果在0-0.1範圍內,而不是分佈在0-1範圍內。如何在10,000個隨機單詞之間的相似性都在這個狹窄的範圍內結束?單詞之間相似度最好的WordNet函數是什麼?

有沒有更好的方法來使用WordNet來找出兩個單詞之間的相似性?

回答

3

對於上下文,here's how this is calculated

  1. Claculate兩個同義詞集/字(含)之間的最短路徑的長度。

  2. 返回得分爲1/pathLen不能

因此得分< 0.2指示的路徑長度> 5個步驟。包含兩個輸入同義詞,這意味着它們之間至少有4個同義詞。

這樣說:你的抱怨似乎是「根據這個指標,隨機選擇的兩個單詞是非常一致的不相關!發生了什麼事?那麼,你的相似性指標告訴你,隨機單詞通常不是密切相關的。這應該不會令人驚訝。你爲什麼要計算隨機單詞之間的相似之處?

+0

我說我的問題錯了,對不起。我試圖找到一組項目的標題之間的相似之處。對於我來說,看到超過80%的標題名稱導致了0.05-0.2的相似性,這很奇怪。由於事先了解項目的具體情況,我預計會有更廣泛的分佈,因此預計類似的項目也會有類似的名稱。但看到標題中的單詞按照這個度量標準是「隨機的」,我很困惑如果WordNet的path_similarity是我正在尋找的函數來檢測兩個單詞在語義上有多相似。 – newenthusiast

相關問題