我正在追蹤我的previous question。合併/連接CSV導入的數據框並刪除重複項
已經整理了一個循環來導入CSV,連接數據並刪除重複項。
files = glob.glob('./A08_csv/A08_B1_T*.csv')
dfs = [pd.read_csv(fp, index_col=[0], parse_dates=[0], dayfirst=True) for fp in files]
df = pd.concat(dfs)
df_purged = df.drop_duplicates(inplace=True)
print df_purged
然而df.drop_duplicates(就地= TRUE)不工作(當然,我失去了一些東西),並打印返回一個空。我如何指定通過索引檢查重複項?添加列名似乎不起作用。
此外,我怎樣才能將這個循環轉換成一個公式,所以我可以將這個遞歸輸入應用於csv,具有不同的文件名(即可以用於A08_B1_T * .csv(臥室)和A08_KI_T * .csv(廚房)等)?
當然,它會(我試過),但proble m是我希望根據索引(日期和時間)識別重複項,並且不知道如何使用索引而不是'col_name'。 如果我輸入:'df.drop_duplicates(['Date Time'])'這是csv的列名,那麼我得到一個關鍵錯誤 – Andreuccio
讓我知道如果編輯工作 – SerialDev
Cmari,謝謝你。 現在我得到'KeyError:'index''。 – Andreuccio