我希望這是一個合適的問題。如果沒有,請告訴我,我會立即將其刪除。檢查python中合併/合併期間出現的錯誤的大數據幀
問:
如何我可以使用Python檢查(視覺?)的組合過程中出現的錯誤,大數據集?
背景:
我與我相結合,形成一個更大的數據集幾大(但不是,你知道「大」)數據集進行操作。這個新的設置大小約爲2.5G,所以它不適合大多數電子表格程序,或者至少不是我嘗試過的(MS Excel,OpenOffice)。
創建最終數據集的過程使用模糊匹配(通過fuzzywuzzy
),並且我想檢查匹配的結果以查看是否引入了任何錯誤。
截至目前,我已經嘗試將整個集合導入pandas
數據框。這個DF有64列,所以當我簡單地做一些像df.head()
這樣的結果顯示的信息顯然不會顯示所有列;因此我排除了迭代多個.head()
調用。
還有一個類似的問題,關於可視化數據幀的特定方面here。我認爲我的問題是不同的,因爲我不需要想象關於底層結構或類型的任何東西。我只是想直觀地檢查我懷疑可能有錯誤的地方。
如何設置顯示屬性以便顯示所有行和列?這可以接受嗎? –
感謝您的意見!我已經嘗試過了,但是在IDE(我使用PyCharm)的標準屏幕上有包裝問題,我想每次檢查10-12列。 另一種我現在無法工作的方法是將每一行都設置爲一個列表,然後在屏幕上以遞減的方式打印列表,以便至少讀取「行」以查看是否事情看起來不錯。我認爲這可能會起作用,因爲列表中的每一項都將在屏幕上自行打印,所以我會有很多屏幕空間。 –
我想你可能只需要花費一些時間用索引/選擇文檔:http://pandas.pydata.org/pandas-docs/version/0.16.2/indexing.html然後,你可以,例如,看看前五列數據,其中某列以字母「W」開始。如果您遇到麻煩的具體事情,請發佈有關如何操作的新跟進問題。 – JohnE