我有一個文本短信的csv文件,編碼爲utf-8
。Python:使用熊貓從CSV文件中刪除非ASCII字符
import pandas as pd
data = pd.read_csv('my_data.csv', sep=',')
data.head()
它輸出,如:
id city department sms category
01 khi revenue quk respns. 1
02 lhr revenue good. 1
03 lhr revenue †h\0h2h\0hh\ 0
04 isb accounts ?xœ1øiûüð÷üœç8i 0
05 isb accounts %â¡ã‘ã¸$ãªã±t%rã«ãÿã©â£ 0
我想刪除所有記錄/行,其中sms
列有垃圾值,如以創紀錄的3,4和5可能是他們寫在一種非英語的語言我不太確定這些記錄發生了什麼。雖然sms
列中使用的語言是非正式的(正如人們通常在短信中所做的那樣),但記錄1和2可以保留。如果我有大約200萬條記錄,那麼實現這個目標的便捷途徑是什麼?
編輯: 我想刪除非ASCII字符的任何行sms
列。
您能澄清完整要求的內容嗎?例如,您是否在嘗試過濾非英語全部的東西?不是ascii? – EdChum
我想篩選「短信」值非ascii的所有記錄。 –
[GSM 03.38](https://www.csoft.co.uk/support/character-sets#gsm_set)支持非ASCII字符,所以我不確定是否有效將其限制爲僅供ascii – EdChum