使用不同大小的羣集羣

我有一個defaultdict()帶有一個實例（由鍵表示）和在該實例中交互的ID。這些組的大小不同：使用不同大小的羣集羣

{ 
'2450-66-L116': {'7652', '8089', '9687', '7298', '7622'}, 
'2089-48-LQ16': {'7628', '1269', '96664', '76493'}, 
'2827-176-LE16': {'76538', '1269', '6688', '7990', '7649'}, 
'2322-153-L116': {'1588', '8460', '7606', '15745'}, 
'4063-1-LE16': {'9339', '8682'}, 
'2142-9-L116': {'7990', '7684', '9687'}, 
'608-664-LE16': {'7610'}, 
'2789-204-L116': {'8089', '5782', '96664', '7990'}, 
'994-31-L116': {'15745', '7610'}, 
'994-35-LE16': {'12569', '7802'}, 
'1559-1080-L115': {'7652', '8682', '7607', '9675', '7614', '7802', '7610'}, 
'5326-30-L116': {'9687', '7684', '7652', '5782', '7638', '5907', '7663'} 
}

我需要創建通常在相同實例中交互的ID組。用這些數據創建ID集羣的最佳方式是什麼？我應該使用kmeans，networkx還是其他？

來源

2016-11-19 castor

首先，在進行任何模型化時使用字典是絕對不好的。你應該創建一個數組或者熊貓數據框，其中id爲標籤，所有實例爲變量（如果它們鏈接到一個ID，它們應該有0或1）。然後你可以嘗試建立一個kmeans，但我不確定你有足夠的數據來構建任何東西...

來源

2016-11-20 17:26:50

謝謝！原始數據由43K ID和110K個實例組成。好吧，我有一個1和0的數據框，但它有時會做其他操作，所以這就是爲什麼我把它轉換成字典。 – castor

我不確定任何sciki-learn算法接受字典，所以你應該回到你的數據框。它有什麼問題？爲什麼會崩潰？ –

使用不同大小的羣集羣

回答

相關問題