-3
我有一個包含博客文章的元組,它看起來是這樣的:解析文本
[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].
現在我需要從這個得到每類別中最頻繁出現的詞彙,但我不能在沒有丟失類別的情況下將詞語標記化。 在元組上標記失敗的標準方法,我使用了nltk和.split()方法的解析器,但兩者都不適用於元組。 任何人都可以提供任何幫助嗎?