我想將非常大的csv文件中的相似行(每個近1GB)組合成一個。我感興趣的是做這樣的事情:在python中有效地組合類似的CSV行
以前
First Name | Last Name | Phone Number | Email
John | Doe | 1234 | [email protected]
Jane | Doe | 4321 | [email protected]
John | Doe | 6789 | [email protected]
Jane | Doe | 9876 | [email protected]
後
First Name | Last Name | Phone Number | Email
John | Doe | 1234, 6789 | [email protected], [email protected]
Jane | Doe | 4321, 9876 | [email protected], [email protected]
也就是說,使用名和姓,和手機結合的行和電子郵件將它們添加到「列表」。
感謝
如果你有一個問題標記大數據,你可能不應該使用itertools。 –
我應該使用什麼? –
任何大數據或數據處理工具... numpy ...熊貓...火花... hadoop ...等 –