2017-03-23 81 views
1

我正在處理一個項目,其中提供了一個輸入文件categories.txt,它要求首先輸出所有長度爲1的頻繁類別,最小支持爲0.01。然後到所有頻繁的分類集。對類別數據的Apriori算法

我們的目標是在一個文件中寫入與絕對支持(計數)以下的數據,例如:

2851:快餐;餐廳

我找回我的所有數據作爲一個列表的列表

data = [] 
with open("categories.txt") as file: 
for line in file: 
    line = line.replace("\n", "") 
    line = line.split(";") 
    data.append(line) 

我的問題是,我不知道該怎麼應對第二種情況,發現他們絕對支持所有類別中的所有組合(不支持百分比)。我還沒有在Python中找到任何好的Apriori庫。

感謝您的幫助。

+1

這是要麼偏離主題(要求圖書館推薦),要麼太寬泛(要求實施非平凡機器學習算法)。請編輯您的問題,以便它既是主題又是重點。請參閱[幫助/話題]。 –

回答

0

尋找一個頻繁項集在python挖掘圖書館在這裏,請:Mining Frequent Itemsets PY Library

但我建議你不要使用Apriori算法挖掘頻繁項集。與其他頻繁項目集挖掘算法相比,速度很慢。至少檢查一下在鏈接庫中更高效並且實現的FP-Growth算法。