我想將大小爲50GB的大文本文件拆分爲多個文件。中的文件數據 像這 - [X =任何0-9之間的整數]將大文本文件(大約50GB)拆分爲多個文件
xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx
...............
...............
可能有文件中的行的幾十億,我想例如30/40每秒百萬文件寫入。 我猜的步驟將是─
- 我已經打開文件
- 然後使用的ReadLine()必須按行讀取文件行,同時寫入新文件
- 一旦它達到最大行數,它將創建另一個文件,並且 開始再次寫入。
我在想,如何把所有這些步驟放在一個高效,快速的內存中。我已經看到了一些堆棧示例,但沒有一個完全幫助我確切需要。如果有人能幫助我,我會很感激。
在Python中如何做是比僅使用split更好的解決方案? –
'readline()'不是你實際想要經常使用的函數 - Python文件本身就是懶惰的可迭代對象 - 只是用'for'循環遍歷它。 –
是的,你還沒有顯示出它需要在Python中完成的任何理由。使用Unix命令,或者[Windows上的Cygwin'split'](http://stackoverflow.com/questions/4128442/shell-command-to-split-large-file-into-10-smaller-files)。 – smci