我有一個包含月份,客戶ID和商店ID的大型數據集。每個客戶每個地點每月有一個記錄,總結他們在該地點的活動。在大型數據集中查找值的同現
Month Customer ID Store
Jan 1 A
Jan 4 A
Jan 2 A
Jan 3 A
Feb 7 B
Feb 2 B
Feb 1 B
Feb 12 B
Mar 1 C
Mar 11 C
Mar 3 C
Mar 12 C
我有興趣創建一個矩陣,顯示每個位置與另一個位置共享的客戶數量。就像這樣:
A B C
A 4 2 2
B 2 4 2
C 2 2 4
例如,由於客戶在下個月訪問商店A,然後B商店,他們將被添加到理貨。我對共享客戶數量感興趣,而不是訪問次數。
我在這個線程(Creating co-occurrence matrix)中嘗試了稀疏矩陣方法,但由於某些原因我不能理解返回的數字。
任何想法將不勝感激!
感謝這個完美! – Steven