1
我正在致力於向用戶推薦內容的項目。我想從每個用戶創建一個配置文件,這樣我就可以對它們進行集羣並提供常見建議,但在必須能夠測量這些用戶之間的相似性之前。我曾在一份可以使用模糊標籤填寫的問卷中考慮。我如何測量回答相同問題的用戶之間的相似度
我的問題是我如何測量回答這種問題的兩個用戶U1和U2的相關性(相似性)?
- Q1。我認爲東京是一個不錯的城市。 U1:完全同意U2:部分 同意
- Q2。我已閱讀堂吉訶德。 U1:完全不U2同意:完全同意
- ...
- QN。我認爲塔倫蒂諾是一個很好的電影導演。 U1: 部分同意U2:部分同意
我也曾想過答案轉換成數值,然後嘗試計算Pearson相關係數。但我想知道是否有更優雅的方式來做到這一點。
只是在做矢量相似性之前將「非常同意」「部分同意」轉換爲李克特量表(值在1-4範圍內或任何它們)應該沒問題,我不認爲這將是一個具有挑戰性的問題在其本身。更有可能的是,這些問題不允許使用任何距離度量來適當地將它們分成集羣,我會想。 –