我試圖從使用python中的正則表達式的段落中提取句子。
通常,我正在測試的代碼正確地提取了該語句,但是在下面的段落中該句子沒有正確提取。正則表達式從python中的段落中提取句子
段落:
「但是,在瘧疾感染和敗血症,樹突狀細胞在整個身體都集中在提醒免疫系統,以防止它們從檢測和響應任何新的感染的情況下,」 一種新型疫苗?
代碼:
def splitParagraphIntoSentences(paragraph):
import re
sentenceEnders = re.compile('[.!?][\s]{1,2}(?=[A-Z])')
sentenceList = sentenceEnders.split(paragraph)
return sentenceList
if __name__ == '__main__':
f = open("bs.txt", 'r')
text = f.read()
mylist = []
sentences = splitParagraphIntoSentences(text)
for s in sentences:
mylist.append(s.strip())
for i in mylist:
print i
當與前款測試它到底給輸出與輸入段落,但輸出看起來應該喜歡 -
但在瘧疾感染的情況下,和敗血症,整個身體的樹突細胞被集中在提醒免疫系統,以防止它們從檢測和響應任何新的感染
一種新型疫苗
正則表達式有什麼問題嗎?
至少縮進代碼正確... – rubik