聚類的字符串數組之間的距離計算

-1

我想根據他/她的興趣（大學項目）向用戶推薦朋友的推薦系統。我準備的用戶信息和用戶利益的數據集（CSV文件）：他們在格式：聚類的字符串數組之間的距離計算

"abcd","pqr","[email protected]","adf332" //userDetail 
"Henry","Clifford","[email protected]","sa1xVP" //userDetail

在另一個文件中：

"Henry","Clifford","Painting Photography EDM Algorithms Squash Graffiti Folk-music Badminton" //User interests

現在我想對羣集用戶他們利益之間的相似性的基礎。我想這樣做，整個興趣字符串與其他用戶不單獨（這將需要很多時間）進行比較。我有大約1,700,000個用戶的數據。我被困在計算我可以在聚類算法中使用的用戶的距離矩陣。

我試圖Levenshtein距離但是這將無法正常工作，如果利益陣列[ a,b,c,d]不會等於[c,d,b,a]

另外我感到困惑其上ALGO是最好的用於此目的（k均值，模糊cmeans或分層算法）。

我想輸出爲用戶羣，使他們的興趣數組匹配。

即使經過大量搜索，我仍無法在網上找到令人滿意的結果。

關於如何爲這樣的字符串數組創建距離矩陣的任何想法？

2014-05-08 Arun

不處理原始數據。

提取特徵，例如使用詞語向量空間模型包和TF-IDF加權。

2014-05-08 14:23:37

回答