我有一個Csv文件,它是217GB,如何使用Python或PHP腳本無需超時獲得唯一列值的計數?從使用Python或PHP的大型CSV文件中計算唯一列值
0
A
回答
1
不確定你的意思是超時,對於像這樣的大文件,它總是需要很長時間。
tokens = {}
with open("your.csv") as infile:
for line in infile:
columns = line.split(',')
# Where idx is your desired column index
if columns[idx] not in tokens:
tokens[columns[idx]] = 0
else:
tokens[columns[idx]] += 1
print tokens
這樣一行一行地加載文件,所以你的計算不會從將217 GB加載到RAM中時崩潰。你可以先試試看這本詞典是否適合你電腦的內存。否則,你可能想考慮以分而治之的方式將文件分割成更小的塊。
-1
你可以試着加大field_size_limit
import csv
csv.field_size_limit(1000000000)
r = csv.reader(open('doc.csv', 'rb'))
for row in r:
print(row) # do the processing
相關問題
- 1. 使用熊貓在csv文件中計數唯一的ID(python)
- 2. 從csv文件計算一行值的總和Python
- 3. csv文件行中每列的Python唯一值
- 4. 使用PHP計算CSV文件中的列數?
- 5. 使用條件計算唯一值
- 6. 的CSV文件列計算
- 7. 在Python中將列添加到.CSV文件並計算值
- 8. 在python中從csv文件獲取唯一值
- 9. 從PHP中的大型CSV文件讀取多列
- 10. 如何計算跨列中的唯一值大熊貓
- 11. 計算python中每一列csv文件的均值和標準差
- 12. 從awk輸出中計算唯一值
- 13. 使用大型csv文件
- 14. 使用shell腳本計算列中的唯一值
- 15. Excel計算多個列的唯一值
- 16. 使用Python列表中的值創建一個.csv文件
- 17. 從awk中的CSV文件計算總計,按列分組
- 18. 使用Python刪除或刪除CSV文件中的最後一列使用Python
- 19. 使用excel計算csv中的唯一實例
- 20. 使用python計算CSV文件中的條目
- 21. 使用countifs計算唯一值?
- 22. Python在csv文件中統計重複項爲唯一身份
- 23. 從csv文件的每一列中獲取最大值
- 24. 如何計算使用PHP的多個CSV文件中的值的實例?
- 25. 用Python處理大型csv文件
- 26. 根據另一列的值計算列的唯一值
- 27. 從PHP獲取計算機唯一ID
- 28. R爲每列計算唯一值
- 29. Python Pandas:計算所有列上唯一值的頻率
- 30. python計算大文件中的單詞
正如@plsnoban提到,在處理這個巨大的文件將(按大小的性質)需要很長的時間 – salomonderossi