我有一個相當大的固定寬度的文件(〜30M行,4GB),當我試圖使用熊貓read_fwf()創建一個數據幀時,它只加載了一部分文件,只是好奇,如果任何人有這個解析器沒有讀取文件的全部內容類似的問題。熊貓read_fwf不加載整個文件的內容
import pandas as pd
file_name = r"C:\....\file.txt"
fwidths = [3,7,9,11,51,51]
df = read_fwf(file_name, widths = fwidths, names = [col0, col1, col2, col3, col4, col5])
print df.shape #<30M
如果我使用read_csv()天真文件讀入到1列中,所有文件的讀入到存儲器,並且沒有數據丟失。
import pandas as pd
file_name = r"C:\....\file.txt"
df = read_csv(file_name, delimiter = "|", names = [col0]) #arbitrary delimiter (the file doesn't include pipes)
print df.shape #~30M
當然,沒有看到的內容,或者它可能與我的東西到底該文件的格式,但想看看是否有人曾在過去的這個任何問題。我做了一個健全性檢查,並測試了文件中的幾行,並且他們似乎都格式正確(進一步驗證了當我能夠使用相同規格將它與Talend拉到Oracle數據庫中時)。
讓我知道,如果任何人有任何想法,這將是巨大通過Python運行一切,而不是來回走時,我開始發育分析。看到日期怎麼看起來象輸入文件的