解析文本

-3

我有一個包含博客文章的元組，它看起來是這樣的：解析文本

[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].

現在我需要從這個得到每類別中最頻繁出現的詞彙，但我不能在沒有丟失類別的情況下將詞語標記化。在元組上標記失敗的標準方法，我使用了nltk和.split（）方法的解析器，但兩者都不適用於元組。任何人都可以提供任何幫助嗎？

2013-04-27 Shifu

假設你有一個函數tokenize給定的字符串時返回令牌：

for cat, text in tuples: 
    tokenized = tokenize(text) 
    # now do whatever you want with the category and the tokenized text

2013-04-27 14:38:25

回答