我遇到一個問題,閱讀使用熊貓分頁標籤分離文件。閱讀與Python熊貓分頁標籤文件
所有的單元格值都有雙引號,但對於某些行,還有一個額外的雙引號可以打破整個過程。例如:
Column A Column B Column C
"foo1" "121654" "unit"
"foo2" "1214" "unit"
"foo3" "15884""
我得到的錯誤是:錯誤標記數據。答案:C:應符合8355 31場,只見58
我使用的代碼是:
csv = pd.read_csv(file, sep='\t', lineterminator='\n', names=None)
並能正常工作的文件的其餘部分,但不是在那裏這些額外的雙引號出現的那些。
但您的輸入數據已損壞。修復創建buggy文件的代碼不是更簡單嗎? –
你是對的,除了這個數據來自我們的客戶之一。有沒有解決方案來讀取這個特定的文件? –
只有在行尾或任何地方纔會遇到雙引號? –