我有一個數據矩陣作爲以下給出..我應該使用哪種聚類技術?
它是用戶訪問matrix..each行代表用戶和每列表示由該用戶訪問的網頁的類別。
0 8 1 0 0 8 0 0 0 0 0 0 0 11 2 2 0
1 0 7 0 0 0 0 0 1 1 0 0 0 0 0 0 1
1 0 1 1 0 0 0 0 0 1 0 0 0 1 0 0 0
6 1 0 0 0 2 6 0 0 0 0 1 0 0 0 0 0
5 3 2 0 2 0 0 0 0 0 1 0 0 0 1 0 0
2 3 0 1 0 1 0 0 0 0 0 1 0 3 0 0 0
9 0 1 1 0 0 5 0 0 0 1 2 0 0 0 0 0
5 1 4 0 0 0 1 0 0 2 0 0 0 9 0 0 0
5 5 0 2 0 1 0 0 0 0 1 1 0 0 0 0 0
1 2 0 0 2 3 3 0 0 1 1 0 0 0 4 0 0
0 1 0 1 0 2 0 0 1 0 0 0 0 2 0 0 0
5 4 0 0 1 0 0 0 0 0 1 0 0 2 0 0 0
0 0 0 2 0 0 2 12 1 0 0 0 2 0 0 0 0
6 1 0 0 0 0 58 15 7 0 1 0 0 0 0 0 0
1 0 2 0 0 1 1 0 0 0 2 0 0 0 0 0 0
我需要在其上應用biclustering技術。 這種雙聚類技術將首先生成用戶羣集,然後生成頁面羣集。之後,它將用戶和頁面羣集結合起來以生成雙聚類。 現在我很困惑我應該爲此使用哪種聚類技術。 最好的聚類將從這個矩陣生成相干雙聚類。
您是否有理由需要雙集羣數據,而不僅僅是分析?這是解決矩陣問題的數學解決方案,而不是程序化解決方案。 –
看看[Apache Mahout](https://mahout.apache.org/),他們有很多[算法](https://mahout.apache.org/users/basics/algorithms.html)可能適合您的需求。 – sp00m
是的,我正在處理網絡日誌數據的雙重聚合..我已經從這些數據生成了這個矩陣..但是現在關於聚類方法來執行雙聚類。 – Pratts