2013-04-27 119 views
-3

我有一個包含博客文章的元組,它看起來是這樣的:解析文本

[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')]. 

現在我需要從這個得到每類別中最頻繁出現的詞彙,但我不能在沒有丟失類別的情況下將詞語標記化。 在元組上標記失敗的標準方法,我使用了nltk和.split()方法的解析器,但兩者都不適用於元組。 任何人都可以提供任何幫助嗎?

回答

3

假設你有一個函數tokenize給定的字符串時返回令牌:

for cat, text in tuples: 
    tokenized = tokenize(text) 
    # now do whatever you want with the category and the tokenized text