2013-07-14 90 views
6

我使用Python與nltk。我需要用英文處理一些沒有任何空格的文本,但是nltk中的word_tokenize函數無法處理這樣的問題。所以如何標記沒有任何空格的文本。 Python中是否有任何工具?如何標記沒有空格分隔符的連續單詞?

+0

爲什麼沒有空間?什麼是域名? – Jared

+0

你如何識別一個單詞? –

+0

除非您逐字掃描文本並測試所有可能的連續字符組合,否則必須有分隔符 – Yotam

回答

1

我不知道這些工具,但問題的解決方案取決於語言。

對於土耳其語言,您可以逐字逐行掃描輸入文本,並將字母累加到單詞中。如果您確定累積的單詞是從字典中形成的有效單詞,請將其另存爲單獨的令牌,然後擦除緩衝區以累積新單詞並繼續此過程。

你可以試試這個英文,但是我認爲你可能會發現一個單詞的結尾可能是某個詞典單詞的開頭,這會導致你一些問題。

相關問題