2017-08-11 42 views
0

基本上我有文本文件作爲輸入到NLTK的tokenize.regexp。如何輸入文本文件到下面的代碼:如何將輸入作爲文本文件在NLTK的tokenize.regexp python

'從nltk.tokenize進口RegexpTokenizer

標記生成器= RegexpTokenizer(R' \ W + ')的

原始= doc_a.lower()#instead' DOC_A 「我希望我的文本文件作爲輸入

令牌= tokenizer.tokenize(RAW)`

回答

0

這一行之前:

raw = doc_a.lower() #instead of 'doc_a' i want my text file as input 

代碼添加到閱讀doc_a從您的文件,如:

with open(r'path_to\my_text_file.txt', 'r') as input: 
    doc_a = input.read() 

然後用lowercasing和符號化繼續。

相關問題