使用python刪除csv文件中的特殊字符

這個主題看起來已經有些東西了（How to replace all those Special Characters with white spaces in python?），但是我無法將這個簡單的任務變成我的生活。使用python刪除csv文件中的特殊字符

我有一個包含75列和近4000行的.CSV文件。我需要用'_'替換所有'特殊字符'（$＃& * ect）並寫入新文件。這是我到目前爲止有：

import csv 

input = open('C:/Temp/Data.csv', 'rb') 
lines = csv.reader(input) 
output = open('C:/Temp/Data_out1.csv', 'wb') 
writer = csv.writer(output) 

conversion = '-"/.$' 
text = input.read() 
newtext = '_' 
for c in text: 
    newtext += '_' if c in conversion else c 
    writer.writerow(c) 

input.close() 
output.close()

這一切都成功地做的是將所有內容寫到輸出文件作爲一列，年產量超過65K行。此外，特殊字符仍然存在！

對不起，多餘的問題。提前謝謝！

來源

2013-04-01 Jenny

我可能會做這樣的事情

import csv 

with open("special.csv", "rb") as infile, open("repaired.csv", "wb") as outfile: 
    reader = csv.reader(infile) 
    writer = csv.writer(outfile) 
    conversion = set('_"/.$') 
    for row in reader: 
     newrow = [''.join('_' if c in conversion else c for c in entry) for entry in row] 
     writer.writerow(newrow)

果然

$ cat special.csv 
th$s,2.3/,will-be 
fixed.,even.though,maybe 
some,"shoul""dn't",be

（請注意，我有一個引用的值）爲

$ cat repaired.csv 
th_s,2_3_,will-be 
fixed_,even_though,maybe 
some,shoul_dn't,be

現在，你的代碼正在讀取整個文本成一個大線：

newtext = '_'

循環執行的每一個字符text：

text = input.read()

從_字符開始

for c in text:

將更正的字符添加到newtext（非常慢）：

newtext += '_' if c in conversion else c

然後寫原字符，如一個欄目，一個新的CSV（？）：

writer.writerow(c)

..這是不太可能你想要什麼。：^）

來源

2013-04-01 20:20:18 DSM

嗨，你能解釋更多關於如何'newrow = [''.join（'_'如果在轉換中的c其他的c爲c中的條目）進入行]'這行代碼是運作？ – tortuga

這似乎並不需要特別處理CSV（只要特殊字符不是您的列分隔符）。

lines = [] 
with open('C:/Temp/Data.csv', 'r') as input: 
    lines = input.readlines() 

conversion = '-"/.$' 
newtext = '_' 
outputLines = [] 
for line in lines: 
    temp = line[:] 
    for c in conversion: 
     temp = temp.replace(c, newtext) 
    outputLines.append(temp) 

with open('C:/Temp/Data_out1.csv', 'w') as output: 
    for line in outputLines: 
     output.write(line + "\n")

來源

2013-04-01 20:13:21 dckrooney

我覺得你的循環邏輯是錯的：將輸出'LEN（轉換）'行的每一行，不是嗎？ – DSM

@ DSM-好，趕快，謝謝！更新與修復:) – dckrooney

除了@ Nisan.H指出的錯誤和@dckrooney所提出的有效性，你可能不需要在這種情況下以特殊的方式處理文件，只是因爲它是一個CSV文件（見下文我的意見）：

writer.writerow()應採取串序列，每一個會寫出來用逗號（見here）分離。在你的情況下，你正在寫一個單一的字符串。
此代碼設置爲從'C：/ Temp/Data'讀取。csv'在兩個方法 - 通過input和通過lines，但它實際上只從input讀取（因此代碼不處理作爲CSV文件的文件）。
該代碼將字符附加到newtext並寫出該變量的每個版本。因此，newtext第一版本將是1個字符長，第二2個字符長，長的第三3個字符等

最後，考慮到將CSV文件可以具有在它的引號，它實際上可能需要將輸入文件專門作爲CSV來處理，以避免替換要保留的引號，例如引用標記以保護存在於CSV文件字段中的逗號。在這種情況下，需要分別處理CSV文件的每個字段，然後將每行寫入新的CSV文件。

來源

2013-04-01 20:27:34 Simon

太棒了。這工作！謝謝大家，通過這個走過我。 – Jenny

@珍妮：很高興幫助。如果我是你，我傾向於選擇帝斯曼的答案是正確的，因爲它是最完整和最詳細的答案。這也可以避免其他人看到這個問題，並認爲它還沒有得到答案。 – Simon

也許嘗試

s = open('myfile.cv','r').read() 

chars = ('$','%','^','*') # etc 
for c in chars: 
    s = '_'.join(s.split(c)) 

out_file = open('myfile_new.cv','w') 
out_file.write(s) 
out_file.close()

來源

2013-04-01 22:34:41 dermen

如果你想因任何原因寫行，那麼在循環後執行'rows = s.split（'\ n'）' – dermen

使用python刪除csv文件中的特殊字符

回答

相關問題