我如何測量回答相同問題的用戶之間的相似度

我正在致力於向用戶推薦內容的項目。我想從每個用戶創建一個配置文件，這樣我就可以對它們進行集羣並提供常見建議，但在必須能夠測量這些用戶之間的相似性之前。我曾在一份可以使用模糊標籤填寫的問卷中考慮。我如何測量回答相同問題的用戶之間的相似度

我的問題是我如何測量回答這種問題的兩個用戶U1和U2的相關性（相似性）？

我也曾想過答案轉換成數值，然後嘗試計算Pearson相關係數。但我想知道是否有更優雅的方式來做到這一點。

2012-11-05 Jorgemar

將數值（從提供的答案中）轉換爲一個單獨的向量然後應用餘弦相似度函數將會很有用。餘弦相似性已證明比Pearson相關係數更可靠（且更快）。

不過，這不是一個小問題，實施可能會非常具有挑戰性。

2012-11-05 15:01:40

只是在做矢量相似性之前將「非常同意」「部分同意」轉換爲李克特量表（值在1-4範圍內或任何它們）應該沒問題，我不認爲這將是一個具有挑戰性的問題在其本身。更有可能的是，這些問題不允許使用任何距離度量來適當地將它們分成集羣，我會想。 –

回答