閱讀與Python熊貓分頁標籤文件

我遇到一個問題，閱讀使用熊貓分頁標籤分離文件。閱讀與Python熊貓分頁標籤文件

所有的單元格值都有雙引號，但對於某些行，還有一個額外的雙引號可以打破整個過程。例如：

Column A Column B Column C 
"foo1" "121654" "unit" 
"foo2" "1214" "unit" 
"foo3" "15884""

我得到的錯誤是：錯誤標記數據。答案：C：應符合8355 31場，只見58

我使用的代碼是：

csv = pd.read_csv(file, sep='\t',  lineterminator='\n', names=None)

並能正常工作的文件的其餘部分，但不是在那裏這些額外的雙引號出現的那些。

來源

2017-06-22 Vasilis Vasileiou

但您的輸入數據已損壞。修復創建buggy文件的代碼不是更簡單嗎？ –

你是對的，除了這個數據來自我們的客戶之一。有沒有解決方案來讀取這個特定的文件？ –

只有在行尾或任何地方纔會遇到雙引號？ –

如果你不能改變車的輸入，最好的辦法是讀取輸入文件轉換成io.StringIO對象，取代了雙引號，然後將這個類似文件的對象傳遞給pd.read（它支持文件名和文件類對象）

這樣您就不必創建臨時文件或更改輸入數據。

import io 

with open(file) as f: 
    fileobject = io.StringIO(f.read().replace('""','"')) 

csv = pd.read_csv(fileobject, sep='\t', lineterminator='\n', names=None)

來源

2017-06-22 12:53:07

你可以做預處理步驟來解決報價問題：

with open(file, 'r') as fp: 
    text = fp.read().replace('""', '"') 

with open(file, 'w') as fp: 
    fp.write(text)

來源

2017-06-22 12:18:22 taras

感謝您的答案。這說得通。當我回到我的電腦時，我會稍微嘗試一下 –

閱讀與Python熊貓分頁標籤文件

回答

相關問題