從使用Python或PHP的大型CSV文件中計算唯一列值

我有一個Csv文件，它是217GB，如何使用Python或PHP腳本無需超時獲得唯一列值的計數？從使用Python或PHP的大型CSV文件中計算唯一列值

2016-04-26 Ashwin Kumar

正如@plsnoban提到，在處理這個巨大的文件將（按大小的性質）需要很長的時間 – salomonderossi

不確定你的意思是超時，對於像這樣的大文件，它總是需要很長時間。

tokens = {} 
with open("your.csv") as infile: 
    for line in infile: 
     columns = line.split(',') 
     # Where idx is your desired column index 
     if columns[idx] not in tokens: 
      tokens[columns[idx]] = 0 
     else: 
      tokens[columns[idx]] += 1 

print tokens

這樣一行一行地加載文件，所以你的計算不會從將217 GB加載到RAM中時崩潰。你可以先試試看這本詞典是否適合你電腦的內存。否則，你可能想考慮以分而治之的方式將文件分割成更小的塊。

來源

2016-04-26 06:19:59 plsnoban

-1

你可以試着加大field_size_limit

import csv 
csv.field_size_limit(1000000000) 

r = csv.reader(open('doc.csv', 'rb')) 

for row in r: 
    print(row) # do the processing

來源

2016-04-26 06:20:08 salomonderossi

從使用Python或PHP的大型CSV文件中計算唯一列值

回答

相關問題