1

我正在致力於向用戶推薦內容的項目。我想從每個用戶創建一個配置文件,這樣我就可以對它們進行集羣並提供常見建議,但在必須能夠測量這些用戶之間的相似性之前。我曾在一份可以使用模糊標籤填寫的問卷中考慮。我如何測量回答相同問題的用戶之間的相似度

我的問題是我如何測量回答這種問題的兩個用戶U1和U2的相關性(相似性)?

  • Q1。我認爲東京是一個不錯的城市。 U1:完全同意U2:部分 同意
  • Q2。我已閱讀堂吉訶德。 U1:完全不U2同意:完全同意
  • ...
  • QN。我認爲塔倫蒂諾是一個很好的電影導演。 U1: 部分同意U2:部分同意

我也曾想過答案轉換成數值,然後嘗試計算Pearson相關係數。但我想知道是否有更優雅的方式來做到這一點。

回答

2

將數值(從提供的答案中)轉換爲一個單獨的向量然後應用餘弦相似度函數將會很有用。餘弦相似性已證明比Pearson相關係數更可靠(且更快)。

不過,這不是一個小問題,實施可能會非常具有挑戰性。

+1

只是在做矢量相似性之前將「非常同意」「部分同意」轉換爲李克特量表(值在1-4範圍內或任何它們)應該沒問題,我不認爲這將是一個具有挑戰性的問題在其本身。更有可能的是,這些問題不允許使用任何距離度量來適當地將它們分成集羣,我會想。 –

相關問題