2011-10-28 36 views
0

我正在嘗試將文件讀入我的python程序並在其上應用tokenizer將文本分成一組句子。然而,在我的輸出中,我得到了'/ n'字符,我想避免在輸出中,因爲它可能會妨礙我對句子的進一步處理。 我使用read()命令讀取輸入。還嘗試了readline()。我仍然在輸出中獲得換行符。任何建議,避免這種情況?格式化從Python中的文件輸入

file_sent = open(path,'r') 
all_sents = file_sent.read() 
sent_all = print all_sents 
tokenized_sents = sent_tokenize(sent_all) 
+0

「\ n」是換行符的文本符號。 – Shakakai

+0

我知道,但我不希望它在我的輸入。 – madCode

+0

該代碼不應運行。 'sent_all = print all_sents'行會導致「無效的語法」錯誤。你在做什麼來完成這項工作? –

回答

2

如果你想徹底刪除換行符:

all_sents = file_sent.read().replace('\n', '') 

如果你想用空格來代替它們:

all_sents = file_sent.read().replace('\n', ' ') 

很明顯,你可以用,如果你想別的東西代替它們。

+0

這是真的,謝謝!但我想知道是否還有其他辦法可以做到這一點。 – madCode

+0

你在想什麼其他類型的方式?你可以在處理過程中的其他位置。例如,如果你將它分成單詞,你可以使用'.split()',它可以很好地處理包括換行符在內的任何類型的空白,並且它們將在那一刻消失。 – kindall