對類別數據的Apriori算法

我正在處理一個項目，其中提供了一個輸入文件categories.txt，它要求首先輸出所有長度爲1的頻繁類別，最小支持爲0.01。然後到所有頻繁的分類集。對類別數據的Apriori算法

我們的目標是在一個文件中寫入與絕對支持（計數）以下的數據，例如：

2851：快餐;餐廳

我找回我的所有數據作爲一個列表的列表

data = [] 
with open("categories.txt") as file: 
for line in file: 
    line = line.replace("\n", "") 
    line = line.split(";") 
    data.append(line)

我的問題是，我不知道該怎麼應對第二種情況，發現他們絕對支持所有類別中的所有組合（不支持百分比）。我還沒有在Python中找到任何好的Apriori庫。

感謝您的幫助。

來源

2017-03-23 glouis

這是要麼偏離主題（要求圖書館推薦），要麼太寬泛（要求實施非平凡機器學習算法）。請編輯您的問題，以便它既是主題又是重點。請參閱[幫助/話題]。 –

尋找一個頻繁項集在python挖掘圖書館在這裏，請：Mining Frequent Itemsets PY Library

但我建議你不要使用Apriori算法挖掘頻繁項集。與其他頻繁項目集挖掘算法相比，速度很慢。至少檢查一下在鏈接庫中更高效並且實現的FP-Growth算法。

來源

2017-04-30 13:34:56 n01dea

對類別數據的Apriori算法

回答

相關問題