我正在做一個新聞推薦系統,我需要爲他們閱讀的用戶和新聞建立一個表格。我的原始數據,就像這樣:如何將我的索引向量更改爲可用於sklearn的稀疏特徵向量?
001436800277225 [12,456,157]
009092130698762 [248]
010003000431538 [361,521,83]
010156461231357 [173,67,244]
010216216021063 [203,97]
010720006581483 [86]
011199797794333 [142,12,86,411,201]
011337201765123 [123,41]
011414545455156 [62,45,621,435]
011425002581540 [341,214,286]
第一列是userID
,第二列是newsID
。 newsID
是一個索引列,例如在轉換之後,[12,456,157]
在第一行意味着該用戶已經讀過第12,456和157條消息(在稀疏向量中,第12列,第456列和第157列是1
,而其他列具有值0
)。我想將這些數據轉換爲稀疏矢量格式,可用作Kmeans中的輸入矢量或sklearn
的DBscan算法。 我該怎麼做?
'csr_matrix'接受輸入的'coo'風格。在實踐中,儘管它做你所做的事情 - 做一個「咕咕」,然後轉換。 – hpaulj