2013-06-23 39 views
2

我傾向於經常記筆記,因爲我一直以電子方式將他們帶到了偉大的平板革命。我一直在試圖看看我是否可以通過記筆記的方式找到任何模式。因此,我已經加入了一些小竅門來加載筆記,並過濾掉專有名詞和絨毛,以留下我使用的關鍵詞列表。Python是一種開放源代碼的價目表或類別比較列表

import os 
import re 

dr = os.listdir('/home/notes') 
dr = [i for i in dr if re.search('.*txt$',i)] 
ignore = ['A','a','of','the','and','in','at','our','my','you','your','or','to','was','will','because','as','also','is','eg','e.g.','on','for','Not','not'] 
words = set() 
d1 = open('/home/data/en_GB.dic','r') 
dic = d1.read().lower() 
dic = re.findall('[a-z]{2,}',dic) 
sdic = set(dic) 
for i in dr: 
    a = open(os.path.join('/home/notes',i),'r') 
    atmp = a.read() 
    atmp = atmp.lower() 
    atmp = re.findall('[a-z]{3,}',atmp) 
    atmp = set(atmp) 
    atmp.intersection_update(sdic) 
    atmp.difference_update(set(ignore)) 
    words.update(atmp) 
    a.close() 

words = sorted(words) 

我現在有一個約15,000字的清單,我經常在記筆記時使用。手工分類有點難以管理,我想知道是否有一個開放源碼庫 positive-negative-neutraloptimistic-pessimistic-indifferent或其他形式的單詞列表沿着任何意義的規模,我可以運行單詞列表通過。

在一個完美的場景中,我也可以通過某種形式來運行它,所以我可以將這些單詞分組爲意義集羣,以獲得我最常用的感官術語的高層次視圖。

有誰知道是否有任何這樣的列表,如果是這樣,我將如何去在Python中使用它們?

感謝

+1

你可能想嘗試http://nltk.org/ –

+1

相反過濾'os.listdir'結果,請嘗試使用'glob'模塊。此外,請查看處理文件的''with''塊成語,並嘗試爲「從文件創建一組單詞」的任務創建單獨的函數。 –

+0

@KarlKnechtel謝謝。我擡頭看着那塊,現在對我來說更有意義。感謝你的幫助。三個好建議。 –

回答