我想從我的twitter文本語料庫中刪除表情符號和表情符號。 該腳本成功刪除了笑臉。但是,當我將該文件用於下一個分析步驟時,該字符串被轉換爲浮點數,並在接下來的步驟中導致錯誤。不刪除表情符號,文本不是浮動的,並且在接下來的分析步驟中不會導致錯誤。所以錯誤可以在這個腳本中找到。我能以某種方式改變腳本,將字符串格式保留爲字符串嗎?「替換」將字符串轉換爲浮動。如何保持字符串格式?
浮動的結果是在輸出文件中的一些行:
<class 'str'> ""USERNAME Danke, Dir auch, beim Stabilisieren und Herumdoktern am Falschen ""
<class 'str'> ""USERNAME Also ich werde, sobald die Brille da ist, sagen, was ich von den Gläsern und co halte! ""
<class 'float'> nan
#remove emoticons
with open("data_sentiment.csv","r", encoding="utf-8") as oldfile1, open("data_sentiment_stripped_emoticons.csv", 'w',encoding="utf-8") as newfile1:
for line in oldfile1:
line=line.replace("","").replace(":)", "").replace(":D", "").replace(":(","").replace(":-(","")
newfile1.write(line)
newfile1.close()
使用[原始字符串](https://docs.python.org/3.4/reference/lexical_analysis.html#string-and-bytes-literals) – Gahan