2017-09-07 41 views
0

我已經使用NLTK標記了一個感覺,但現在我想重新構造一個字符串。 我查看了文檔,但看不到明顯的掃描儀。這可能嗎?NLTK從標記重建句子

tokens = [token.lower() for token in tokensCorrect] 

回答

1

nltk沒有提供這樣的功能。在標記化過程中,空白字符會被丟棄,所以無法準確找回開始的內容;空白可能包含換行符和多個空格,並且無法將其返回。你能做的最好的事情就是把這個句子加入一個看起來像一個普通句子的字符串。一個簡單的" ".join(tokens)會放一個空間之前,所有的標點,這看起來很奇怪後:

>>> print(" ".join(tokens)) 
'This is a sentence .' 

所以你需要擺脫空間的大部分標點符號之前,除了少數像(``應該有空間他們刪除。即使這樣,有時也會猜測,因爲撇號'有時用在單詞之間,有時用在單詞之前,有時用在單詞之後。 ("Nuthin' doin', y'all!")祝你好運。

我的建議是堅持原來的字符串從中標記句子,並回到那些。你不會顯示你的句子來自哪裏,所以沒有什麼可說的。