2016-04-18 58 views
-1

我是一名使用Rapidminer的學生,我正在使用Yummly的What's Cooking數據集(https://www.kaggle.com/c/whats-cooking/data)做一個項目。該數據集有20種不同的美食類型(例如意大利,中國,印度等)。文本文件的關聯規則

我們的目標是開發一種數據挖掘模型,通過分析菜餚的成分列表來識別未來菜餚的烹飪類型。我們正在使用關聯規則來執行此操作。但是,我一直在「沒有找到規則」,不知道爲什麼。我認爲這與我的屬性被格式化爲文本,而不是使用名義到二項運算符有關,但我不知道如何解決它。

目前我的過程看起來像....

數據 - >選擇屬性 - > FP增長 - >創建關聯規則

你能幫忙嗎?

回答

0

根據FP-Growth操作員的文檔,示例集中的所有屬性都需要是二項式的。

我承認 - 我沒有直接查看數據,因爲我不想在kaggle上註冊帳戶,所以我不確定它是如何格式化的,但是您可能想要設置烹飪類型作爲標籤,然後每個剩餘屬性代表包含在一個或多個食譜中的每種成分。如果使用配料,每道菜將有1列,如果不使用則爲0。 (根據數據的原始格式,由於您提到了它的文本,因此您可能需要查看文本處理擴展,這可以創建一個示例集,就像我剛剛介紹的那樣)。然後,如果將0和1轉換爲二項式,你應該可以使用FP-Growth。