我想使用https://github.com/datamade/dedupe來刪除python中的一些記錄。看他們的例子Python重複數據刪除記錄 - 重複數據刪除
data_d = {}
for row in data:
clean_row = [(k, preProcess(v)) for (k, v) in row.items()]
row_id = int(row['id'])
data_d[row_id] = dict(clean_row)
字典消耗了相當多的內存,一個由pandas創建的字典,一個pd.Datafrmae,甚至一個普通的pd.Dataframe。
如果這種格式是必需的,我怎樣纔能有效地將pd.Dataframe轉換成這樣的字典?
編輯
例什麼大熊貓產生
{'column1': {0: 1389225600000000000,
1: 1388707200000000000,
2: 1388707200000000000,
3: 1389657600000000000,....
例什麼重複數據刪除預計
{'1': {column1: 1389225600000000000, column2: "ddd"},
'2': {column1: 1111, column2: "ddd} ...}
您可以使用'DataFrame.to_dict()'將Pandas Dataframe轉換爲字典,這就是您要查找的內容嗎? –
事實上,這是列>索引>值,他們似乎需要索引>列>價值,它重新生成每個記錄的列鍵 –
我認爲這將從數據的例子大大受益。 – chthonicdaemon