我使用Python與nltk。我需要用英文處理一些沒有任何空格的文本,但是nltk中的word_tokenize函數無法處理這樣的問題。所以如何標記沒有任何空格的文本。 Python中是否有任何工具?如何標記沒有空格分隔符的連續單詞?
6
A
回答
1
我不知道這些工具,但問題的解決方案取決於語言。
對於土耳其語言,您可以逐字逐行掃描輸入文本,並將字母累加到單詞中。如果您確定累積的單詞是從字典中形成的有效單詞,請將其另存爲單獨的令牌,然後擦除緩衝區以累積新單詞並繼續此過程。
你可以試試這個英文,但是我認爲你可能會發現一個單詞的結尾可能是某個詞典單詞的開頭,這會導致你一些問題。
1
也許Viterbi algorithm可以幫忙嗎?沒有確定性......但可能比手動完成更好。
這回答另一個問題,SO(以及其他高投票答案)可以幫助:https://stackoverflow.com/a/481773/583834
相關問題
- 1. 如何分割沒有連續分隔符的空格的字符串
- 2. 用空格作爲單詞間的分隔符移動單詞中的單詞
- 3. 我如何標記非空格分隔的字符串?
- 4. Bash完成時沒有任何空格分隔的詞
- 5. 計數用空格和/或標點符號分隔字符串的單詞數
- 6. 作爲分隔符的空格連接
- 7. Javascript正則表達式匹配用空格分隔符分隔的單詞
- 8. 如何排除連字符作爲單詞分隔符在bash
- 9. 如何在.htaccess中處理多個空格分隔的單詞?
- 10. 如何在Vim中搜索由空格分隔的單詞
- 11. 迭代在字符串中沒有空格作爲分隔符的分隔符
- 12. 如何定義aspell單詞分隔符?
- 13. 如何設置單詞分隔符?
- 14. Haskell:單詞,單詞分隔符
- 15. 如何刪除字符串中未由空格分隔的前兩個單詞?
- 16. 如何隔離由Lua中的空格分隔的非英語單詞?
- 17. 用空格(或任何字符)爲任意數量的單詞分隔文本單元格,並重復單詞
- 18. Unix:分割管道分隔包含連續空格的字符串
- 19. 如何將包含單詞和標點符號之間的空格的字符串分隔爲句子?
- 20. 拆分由多個空格分隔的單詞的行
- 21. 在Java中連接由空格分隔的單個字符?
- 22. 有一個詞+空格作爲分隔符
- 23. 如何匹配正則表達式中由空格分隔的所有單詞?
- 24. 單個單元格中的多個單詞,如何分隔而不用分隔
- 25. Python分割連續分隔符
- 26. Perl分割函數 - 連續分隔符
- 27. 將句子拆分成空格分隔的單詞
- 28. 單獨的空格分隔單詞並刪除重複的單詞
- 29. 如何使用strtok將用戶輸入的單詞分隔符分隔爲空格
- 30. 帶連續分隔符的strtok_s行爲
爲什麼沒有空間?什麼是域名? – Jared
你如何識別一個單詞? –
除非您逐字掃描文本並測試所有可能的連續字符組合,否則必須有分隔符 – Yotam