我正在加速我的項目來計算單詞頻率。我有360多個文本文件,我需要獲取單詞總數以及出現另一個單詞列表中的每個單詞的次數。我知道如何用單個文本文件來做到這一點。Python - 在文本文件中查找單詞列表的單詞頻率
>>> import nltk
>>> import os
>>> os.chdir("C:\Users\Cameron\Desktop\PDF-to-txt")
>>> filename="1976.03.txt"
>>> textfile=open(filename,"r")
>>> inputString=textfile.read()
>>> word_list=re.split('\s+',file(filename).read().lower())
>>> print 'Words in text:', len(word_list)
#spits out number of words in the textfile
>>> word_list.count('inflation')
#spits out number of times 'inflation' occurs in the textfile
>>>word_list.count('jobs')
>>>word_list.count('output')
太繁瑣得到'通貨膨脹','工作','輸出'個人的頻率。我可以將這些單詞放入列表中,並同時查找列表中所有單詞的頻率嗎?與Python基本上this。
例:取而代之的是:
>>> word_list.count('inflation')
3
>>> word_list.count('jobs')
5
>>> word_list.count('output')
1
我想這樣做(我知道這是不是真正的代碼,這就是我尋求幫助的):
>>> list1='inflation', 'jobs', 'output'
>>>word_list.count(list1)
'inflation', 'jobs', 'output'
3, 5, 1
我的單詞列表將包含10-20個單詞,所以我需要能夠將Python指向單詞列表以獲取單詞的數量。這也將是很好,如果產量能夠被複制+粘貼到Excel電子表格的話爲列,頻率爲行
例子:
inflation, jobs, output
3, 5, 1
最後,任何人都可以幫助自動化這個所有的文字文件?我想我只是指向Python文件夾,它可以從每個360 +文本文件的新列表中進行上述單詞計數。看起來很簡單,但我有點卡住了。任何幫助?
像這樣的輸出將是非常美妙: FILENAME1 通貨膨脹,就業,產出 3,5,1
Filename2
inflation, jobs, output
7, 2, 4
Filename3
inflation, jobs, output
9, 3, 5
謝謝!
我一直在櫃檯現在愚弄了幾個小時,仍然無法得到它。 – CoS 2013-02-17 13:18:24
上面的例子會給我講解我的文本文件中所有獨特的單詞(在我的例子中超過3000個獨特的單詞)。我只需要文本文件中10-20個特定單詞的計數。 – CoS 2013-02-17 13:21:32
我認爲這將爲清單工作,非常感謝你!我盯着那個櫃檯頁面好幾個小時哈哈 – CoS 2013-02-17 13:30:05