現在我正在編寫一些Python代碼來處理大量的twitter文件。這些文件太大以至於無法放入內存。與他們合作,我基本上有兩種選擇。在Python中逐行讀取文件的效率
我可以將文件拆分成適合內存的較小文件。
我可以逐行處理大文件,所以我從不需要一次將整個文件放入內存。我更喜歡後者,以便於實施。
但是,我想知道如果讀取整個文件到內存然後從那裏操作它是更快。從磁盤上逐行讀取文件似乎可能會很慢。但是再一次,我不完全理解這些過程在Python中是如何工作的。有誰知道如果逐行讀取文件會導致我的代碼比將整個文件讀入內存並從中進行操作要慢嗎?
爲什麼不嘗試逐行閱讀並看?如果它適合你,那麼它很棒,而且不會因爲改變它而變得困難。 –
它總是要取決於「巨大」的巨大。 – Shep
希望有用的答案:http://stackoverflow.com/a/8717312/416626 – urschrei