我有一個20 + GB的數據集的結構如下:大數據文件:讀取和創建結構化文件
1 3
1 2
2 3
1 4
2 1
3 4
4 2
(注:重複是故意的,有在任一列沒有內在的順序)
我想構建以下格式的文件:
1: 2, 3, 4
2: 3, 1
3: 4
4: 2
這裏是我的問題;我曾嘗試在Python和C++中編寫腳本來加載文件,創建長字符串,並逐行寫入文件。然而,似乎兩種語言都無法處理手邊的任務。有沒有人有任何建議如何解決這個問題?具體來說,是否有一個特定的方法/程序是最佳的呢?任何幫助或指導方向將不勝感激。
究竟是什麼問題了嗎?是因爲你的數據不適合內存嗎? – adrin
請提供你的代碼,所以我們可以看到這個問題。什麼是你的輸入文件類型? – najjarammar