2
我從一些python任務開始,我在使用gensim時遇到了一個問題。我想從我的硬盤加載文件並對其進行處理(將它們分割和小寫()它們)Gensim:TypeError:doc2bow需要輸入unicode標記數組,而不是單個字符串
我的代碼如下:
dictionary_arr=[]
for file_path in glob.glob(os.path.join(path, '*.txt')):
with open (file_path, "r") as myfile:
text=myfile.read()
for words in text.lower().split():
dictionary_arr.append(words)
dictionary = corpora.Dictionary(dictionary_arr)
名單(dictionary_arr)中包含的所有單詞列表在所有文件中,我使用gensim corpora.Dictionary來處理列表。但是我面臨一個錯誤。
TypeError: doc2bow expects an array of unicode tokens on input, not a single string
我不能理解什麼是問題,一點指導,將不勝感激。
嗨wyq10,我試過這個方法,它似乎工作,但是有一個小問題。字典中所有令牌的計數(頻率)保持相同,即1,儘管許多令牌的頻率大於1 – Sam