我對基於食譜各種屬性的統計分析編程分類食譜感興趣。換句話說,我想在沒有任何用戶輸入的情況下將配方分類爲Breakfast
,Lunch
,Dinner
或Dessert
。用於食譜編程分類的算法
我有可用的屬性是:
- 配方標題(如雞肉沙拉)
- 配方描述(任意的文本描述的配方)
- 所述的烹飪方法(步驟參與準備這個配方)
- 準備和烹飪時間
- 配方中的每種成分及其數量
好消息是我有一個已經分類的大約10,000個食譜的樣本集,我可以使用這些數據來教我的算法。我的想法是尋找模式,例如,如果字糖漿出現統計上更頻繁地早餐食譜,或超過1杯糖的調用的任何配方很可能90%以上爲甜點。我想,如果我分析幾個維度的食譜,然後適當調整權重,我可以得到一些非常準確的東西。
在解決這個問題時,有什麼好的算法可以調查?像k-NN這樣的東西會有幫助,還是有更適合這個任務的更好的?
你願意付出多少編程工作?最簡單的(最少編程)解決方案是將所有這些字段連接成一個大文本並運行任何文本分類工具。第二種方法需要更多的參與,需要您從數據中創建自己的特徵,並運行一個或多個分類算法:SVM,Boosting,KNN,神經網絡,決策樹等。 – ElKamina 2012-02-13 18:23:32
@ElKamina - 我正在尋找涉及構建我自己的算法的後一種方法。主要是我想擺脫這個問題是指向最適合這種類型的問題的算法,我沒有尋找任何示例代碼或任何東西(問題顯然太多了!) – 2012-02-13 18:26:36
一旦你有了這些功能,你可以很容易地用[Weka](http://www.cs.waikato.ac.nz/ml/weka/)試驗許多不同的分類算法,並選擇最適合你需求的分類算法。 – 2012-02-13 18:46:06