0
假設我有一個我想學習的文本。句子和段落的數量很重要,因爲它們是保留的(點觸發句子結束,換行觸發新段落開始)。比方說,我需要先記號化我的文字:在保留換行符和段落結構的同時保留標記
>>> from nltk import word_tokenize as tokenize
>>> tokenize('How\'s life? Aren\'t you feeling good\n bro?')
['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']
正如你看到的,輸出是無視無以言表的任何信息的列表。我可以嘗試這樣做:
>>> s = ['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']
>>> " ".join(s)
"How 's life ? Are n't you feeling good bro ?"
但這還不夠,因爲段落結構已經丟失。有沒有簡單的方法來使用NLTK的標記器來做到這一點?我寧願不訴諸不同的圖書館作爲第一個解決方案。