2016-12-23 43 views
0

我正在使用Python執行數據清理任務,並從包含多個句子的文本文件中讀取數據。令牌化的文本文件後,我不斷收到與令牌的列表,每個句子如下:爲什麼在使用python進行標記時會得到多個列表?

[u'does', u'anyone', u'think', u'that', u'we', u'have', u'forgotten', u'the', u'days', u'of', u'favours', u'for', u'the', u'pn', u's', u'party', u's', u'friends', u'of', u'friends', u'and', u'paymasters', u'some', u'of', u'us', u'have', u'longer', u'memories'] 

[u'but', u'is', u'the', u'value', u'at', u'which', u'vassallo', u'brothers', u'bought', u'this', u'property', u'actually', u'relevant', u'and', u'represents', u'the', u'actual', u'value', u'of', u'the', u'property'] 

[u'these', u'monsters', u'are', u'wrecking', u'the', u'reef', u'the', u'cargo', u'vessels', u'have', u'been', u'there', u'for', u'weeks', u'and', u'the', u'passenger', u'ship', u'for', u'at', u'least', u'24', u'hours', u'now', u'https', u'uploads', u'disquscdn', u'com']. 

我做的代碼如下:

with open(file_path) as fp: 
    comments = fp.readlines() 

    for i in range (0, len(comments)): 

     tokens = tokenizer.tokenize(no_html.lower()) 
     print tokens 

哪裏no_html是文本文件,而無需任何html標籤。有沒有人可以告訴我如何將所有這些標記放入一個列表中?

回答

1

而不是使用comments = fp.readlines(),而是嘗試使用comments = fp.read()

readlines所做的是讀取文件的所有行並將它們返回到列表中。

你可以做的另一件事是你可以將所有的標記化結果加入到一個列表中。

all_tokens = [] 
for i in range (0, len(comments)): 

     tokens = tokenizer.tokenize(no_html.lower()) 
     #print tokens 
     all_tokens.extend(tokens) 

print all_tokens 
+0

非常感謝!我使用read()而不是readlines(),並設法解決我的問題。 –

相關問題