格式化從Python中的文件輸入

我正在嘗試將文件讀入我的python程序並在其上應用tokenizer將文本分成一組句子。然而，在我的輸出中，我得到了'/ n'字符，我想避免在輸出中，因爲它可能會妨礙我對句子的進一步處理。我使用read（）命令讀取輸入。還嘗試了readline（）。我仍然在輸出中獲得換行符。任何建議，避免這種情況？格式化從Python中的文件輸入

file_sent = open(path,'r') 
all_sents = file_sent.read() 
sent_all = print all_sents 
tokenized_sents = sent_tokenize(sent_all)

來源

2011-10-28 madCode

「\ n」是換行符的文本符號。 – Shakakai

我知道，但我不希望它在我的輸入。 – madCode

該代碼不應運行。 'sent_all = print all_sents'行會導致「無效的語法」錯誤。你在做什麼來完成這項工作？ –

如果你想徹底刪除換行符：

all_sents = file_sent.read().replace('\n', '')

如果你想用空格來代替它們：

all_sents = file_sent.read().replace('\n', ' ')

很明顯，你可以用，如果你想別的東西代替它們。

來源

2011-10-28 23:28:01 kindall

這是真的，謝謝！但我想知道是否還有其他辦法可以做到這一點。 – madCode

你在想什麼其他類型的方式？你可以在處理過程中的其他位置。例如，如果你將它分成單詞，你可以使用'.split（）'，它可以很好地處理包括換行符在內的任何類型的空白，並且它們將在那一刻消失。 – kindall

格式化從Python中的文件輸入

回答

相關問題