1

我想找到用戶標籤的語義/相似性。查找用戶標籤之間的距離/相似度的算法?

每個用戶最多可以使用4個標籤。例如,用戶1 [「機器學習」,「攝影」,「數據科學」,「神經網絡」],用戶2 [「機器學習」,「數據科學」,「統計學」,「數學」 User-2 [「地球物理學」,「機器學習」,「藝術與印刷」,「數學」]。

標籤來自廣泛的技能。我想找到標籤之間的距離/相似度。例如:「機器學習」,「數據科學」和「神經網絡」將彼此接近,類似地,「攝影」和「藝術與印刷」將彼此接近。

我在想使用word2vec。但是由於我必須用數千種技能組合文件進行培訓,所以我在生產中猶豫不決。不僅如此,在現實生活中,用戶總是改變/更新他們的標籤。所以我想建立/開發一個動態算法,根據用戶標籤進行調整。

我是機器學習界的新手。

回答

1

每個標籤都可以表示爲BitMap(BitSet),一個位表示特定用戶是否具有該標籤。那麼你可以使用一些相似的功能,如Jaccard或Ochiai

相關問題