2016-12-29 72 views
1

我試圖計算2個句子之間的相似度,所以我有2個單詞集合,每個代表一個句子,還有一個函數(F)接收兩個單詞並返回它們之間的相似度一個方式.. Image 1測量2個向量之間的相似度

在圖像1中,黑圓圈是句子A的話,紅色正方形表示句子B. 對於每個時間函數(F)接收2個字,它返回0.0之間的值和1.0,例如:A中的第一個單詞和B中的第三個單詞具有0.3的相似性分數。 我已經使用了M×N的比較,因爲這兩個句子的順序往往不一樣,還有一些單詞。

我的問題是:

  1. 讓所有M×N的比較分數後,我怎麼能拿0.0和1.0表示兩個 句子或列表的相似性之間的最終比分 ? 「由於兩句話的長度不總是 等於」。

  2. 如果這種方法不對,有什麼選擇?

+1

有趣。你是如何定義類似的? –

+0

我不認爲你確切地知道你在做什麼。你有相似性分數矩陣嗎?我不確定M×N比較是什麼意思。這個問題與某些「相似性」主題或數學有關嗎?也許缺乏「相似性」經驗的人仍然可以提供幫助。 –

+0

@NickZiebert,語義上在本體中使用最短路徑。 –

回答

0

我已經得到了通過以下方式如上圖比分:

1 - 當我拿到2所列出,較短的一個將在左側。

2-對於左側的每個單詞,我已經提取了最大值(在本例中爲1.0),然後將其除以右側單詞的數量以獲得該單詞的分數。 3,最後,我總結了單詞的得分,得到最終得分,然後用左邊的單詞數除以得分。 (1 + 0.8)/ 2 = 0.4

這種類型的計算取決於關係的性質,因爲每個單詞可能具有上面的ZERO關係,但是如果每個單詞只有一個關係在上面的ZERO與其他關係我們不應該把最後的分數除以最後一步中的單詞數量。

相關問題