2014-05-08 76 views
-1

我想根據他/她的興趣(大學項目)向用戶推薦朋友的推薦系統。 我準備的用戶信息和用戶利益的數據集(CSV文件): 他們在格式:聚類的字符串數組之間的距離計算

"abcd","pqr","[email protected]","adf332" //userDetail 
"Henry","Clifford","[email protected]","sa1xVP" //userDetail 

在另一個文件中:

"Henry","Clifford","Painting Photography EDM Algorithms Squash Graffiti Folk-music Badminton" //User interests 

現在我想對羣集用戶他們利益之間的相似性的基礎。 我想這樣做,整個興趣字符串與其他用戶不單獨(這將需要很多時間)進行比較。 我有大約1,700,000個用戶的數據。 我被困在計算我可以在聚類算法中使用的用戶的距離矩陣。

我試圖Levenshtein距離但是這將無法正常工作,如果利益陣列[ a,b,c,d]不會等於[c,d,b,a]

另外我感到困惑其上ALGO是最好的用於此目的(k均值,模糊cmeans或分層算法)。

我想輸出爲用戶羣,使他們的興趣數組匹配。

即使經過大量搜索,我仍無法在網上找到令人滿意的結果。

關於如何爲這樣的字符串數組創建距離矩陣的任何想法?

回答

0

不處理原始數據。

提取特徵,例如使用詞語向量空間模型包和TF-IDF加權。