記號化的字符串我想要來標記一個字符串,並用下面的代碼:如何在Python 3.5.2
print(raw)
tokens = nltk.word_tokenize(raw)
tokens
「原始」是從HTML文件中提取文本。我打印了「原始」,但最後兩行不起作用。我有nltk 3.2.1和Python 3.5.2。我記得nltk的創建者說nltk仍在升級Python 3中。
那麼在Python 3.5.2環境中有沒有其他方式來標記字符串? BeautifulSoup或其他軟件包是否可以做到這一點?
當你說最後兩行「沒有工作」,你能更具體嗎?特別是,輸入是什麼,你期望的輸出是什麼,你實際得到了什麼? –
如果我的輸入是字符串'第一章,在一個異常炎熱的夜晚......',那麼最後一行的輸出應該是這樣['Chapter','I','on','an' '異常',...]。但是現在什麼都沒有顯示,只是看起來代碼被跳過了。 – dwill
@Jon Ericson我沒有收到任何錯誤消息。 – dwill