我颳了幾個網站的食譜,我真的不想嘗試創建某種算法,將食譜分爲不同的類別。我想不能完全完美,但最佳實踐是什麼。我是否會首先在數據庫中創建靜態類別,然後使用靜態關鍵字創建另一個表,其中包含關於類別的外鍵,然後檢查包含關鍵字之一的刮擦文本,或者正確的方法是什麼?確定類別的內容挖掘的算法
回答
在我看來,你要找的是一種分類算法,它通過預定義食譜或食譜屬性定義類(讀取類別)。
你可以實現這一點的一種方式是創建一個生活在所有食譜的指導,食譜甚至標題中的大字典。然後,您定義靜態數量的類別(此方法不適用於可變數量的類別),並定義字典中的每個單詞可預測包含該單詞的食譜屬於該類別。
你可以通過讓100個食譜手動告訴算法,他們屬於哪個類別,這樣你的算法將創建這些食譜的詞的權重(例如,包含單詞「水果」的沙漠食譜)將增加包含單詞「水果」這個詞的未來食譜被歸類爲沙漠食譜的機會
然後,當您的算法已針對這100個食譜進行校準時(顯然數字100可能大於或小於通常越大越好),您可以通過將已知配方插入算法來測試您的算法,並查看算法的正確性。您可以通過讓算法學習他的結果來升級算法,但只要您滿意你的算法的準確性ithm,你應該沒問題。
在這種情況下,您是否有任何數據庫結構看起來像樣的例子或類似案例的鏈接? –
那麼您需要一套您定義的類別,以及您選擇的一組(大)字。每個單詞需要能夠對每個類別進行引用,因此要麼爲類別創建1個表格,要麼爲1個單詞創建1個表格,並且將1個表格與一個單詞屬於某個類別的值鏈接在一起,*或* make 1大表,每個類別都有一個列,這樣一行就定義了一個單詞,將它存儲在列中的每個類別中。我會自己選擇第一個選項,因爲很多單詞的重量都是0,這意味着您可以通過截斷這些記錄來減少數據量。 – Glubus
首先定義「類別」的含義。想想如何檢測它們,例如
- 關鍵字的文本
- 成分。
如果您還不確定,請嘗試一些組合並查看結果。您還可以在其上投擲AI算法,例如訓練神經網絡來檢測類別。
可以說我早餐,午餐,晚餐,沙拉,麪包,小吃,飲料和甜點。一個配方包含一個標題,指導和成分。我不確定一個食譜是否應該可以分成幾個類別。這取決於是否最簡單。我不想從一個簡單的起點開始,我可以進一步發展。 –
@Peter Pik:我認爲一些成分是不尋常的,例如,早餐像土豆或菠菜。 – MrSmith42
- 1. 簡單的比特幣挖掘算法
- 2. DBSCAN算法和數據挖掘聚類算法
- 3. 數據挖掘算法比較
- 4. 哪種數據挖掘算法最好?
- 5. Apriori算法挖掘XML文檔
- 6. 確定哪個CGPath被挖掘
- 7. 確定哪個UISwitch被挖掘
- 8. 任何一種優化Apriori算法的數據挖掘算法?
- 9. R數據挖掘語法
- 10. 檢測UIWebView內的挖掘圖像
- 11. .net圖挖掘
- 12. 用於挖掘XML標記內容的RegEx
- 13. 如何更改標記圖標它被挖掘的內容?
- 14. 關聯規則挖掘和頻繁項目挖掘有什麼區別
- 15. 的Oracle SQL導航數據挖掘文本挖掘
- 16. 識別哪個子視圖被挖掘
- 17. 如何識別哪個銷被挖掘
- 18. 理解cryptocoins挖掘利潤計算
- 19. 挖掘衆包數據的合法性
- 20. 關於一些數據挖掘算法的問題
- 21. 文本挖掘庫或算法來檢索所需的文本?
- 22. 在數據挖掘中映射數據的算法
- 23. 向前看的時間分析,R(數據挖掘算法)
- 24. 建議這種情況的數據挖掘算法
- 25. 什麼是文本挖掘的基本算法?
- 26. 的UIScrollView和uibuttons挖掘
- 27. hadoop的數據挖掘庫
- 28. SIGABRT挖掘後的ImageView
- 29. 文本挖掘中的R
- 30. 確定一些挖掘的答案是否具有權威性
對於您描述的每個不同版本的問題,正確的做法都不相同。你能否更詳細地說明輸入的內容,以及期望的輸出應該是什麼樣子。即有多少類別(或變量),配方是什麼樣的,配方屬於多於一個類別等。有可能你還不知道這些問題的答案,如果是這樣,你必須首先定義你的問題爲了找到解決辦法。 – Glubus
可以說我早餐,午餐,晚餐,沙拉,麪包,小吃,飲料和甜點。一個配方包含一個標題,指導和成分。我不確定一個食譜是否應該可以分成幾個類別。這取決於是否最簡單。我不想從一個簡單的起點開始,我可以進一步發展。 –