2016-10-09 91 views
0

記號化的字符串我想要來標記一個字符串,並用下面的代碼:如何在Python 3.5.2

print(raw) 
tokens = nltk.word_tokenize(raw) 
tokens 

「原始」是從HTML文件中提取文本。我打印了「原始」,但最後兩行不起作用。我有nltk 3.2.1和Python 3.5.2。我記得nltk的創建者說nltk仍在升級Python 3中。

那麼在Python 3.5.2環境中有沒有其他方式來標記字符串? BeautifulSoup或其他軟件包是否可以做到這一點?

+1

當你說最後兩行「沒有工作」,你能更具體嗎?特別是,輸入是什麼,你期望的輸出是什麼,你實際得到了什麼? –

+0

如果我的輸入是字符串'第一章,在一個異常炎熱的夜晚......',那麼最後一行的輸出應該是這樣['Chapter','I','on','an' '異常',...]。但是現在什麼都沒有顯示,只是看起來代碼被跳過了。 – dwill

+0

@Jon Ericson我沒有收到任何錯誤消息。 – dwill

回答

0

對於最後一行代碼:令牌 我正在關注本書的一個示例。遵循朱利葉斯的建議,並將其簡單地更改爲

print(tokens) 

它工作。所以ntlk 3.2實際上適用於python 3.5。太棒了。

+1

請注意,這與nltk無關。你的問題是,在交互式提示符下編寫變量名將會打印出來,但執行腳本時情況並非如此。 – alexis

+0

@alexis感謝您的澄清。我正在將它作爲腳本運行。 – dwill

+0

是的,這很清楚。您複製的示例是用於交互式會話。 – alexis