我有一些數據文件是由我實驗室中使用的一些相當黑客的腳本產生的。這個腳本非常有趣,因爲它在每個文件頭之間添加的行數(儘管它們具有相同的格式並且具有相同的頭文件)。從csv中讀取熊貓數據幀,從非修復頭開始
我在寫一個批處理來處理所有這些文件到數據框。如果我不知道這個位置,我該如何讓熊貓識別正確的標題?我知道確切的heder文本以及直接在它之前出現的兩行文本(它們是文檔中\r\n
的唯一連續實例)。
我試圖在文檔的末尾,用於定義空跳躍,並選擇數據行的每個文件包含(謝天謝地)定數:
df = pd.read_csv(myfile, skipfooter=0, nrows=267)
這沒有奏效。
您有任何進一步的想法嗎?
不知道是否有一個更好的大熊貓的方式,但你能預讀csv文件,計數空行的數量然後使用read_csv的skiprows命名參數? http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html –