所以我目前有一個數據集,它有一個名爲'logid'的列,它由4位數字組成。我在我的csv文件中有大約200k行,我想統計每個獨特的logid並輸出它。使用熊貓在csv文件中計數唯一的ID(python)
Logid | #爲每個唯一的ID #ofoccurences。所以它可能是1000 | 10表示在csv文件列'logid'中可以看到10次logid 1000。分隔符|沒有必要,只是讓你們更容易閱讀。這是目前我的代碼:
import pandas as pd
import os, sys
import glob
count = 0
path = "C:\\Users\\cam19\\Desktop\\New folder\\*.csv"
for fname in glob.glob(path):
df = pd.read_csv(fname, dtype=None, names=['my_data'], low_memory=False)
counts = df['my_data'].value_counts()
counts
使用此我得到一個奇怪的輸出,我不很明白:
4 16463
10013 490
pserverno 1
Name: my_data, dtype: int64
我知道我做錯事的最後一行
counts = df ['my_data']。value_counts()
但我不太確定是什麼。作爲參考,我提取的值是從excel文件中的C行(所以我猜這是第3列?)在此先感謝!
將提供您'csv'文件結構? –
它由64列(所有str值)和200k行組成,由int值組成。我只想看看標題爲「logid」的第三行,但是對於所有200k行。他們是所有整數的100%。不知道你還有什麼意思。 – Cameron
[使用熊貓搜索CSV文件(獨特的ID) - Python](https://stackoverflow.com/questions/45316031/searching-csv-files-with-pandas-unique-ids-python) – Paul