機器學習在weka中的分類和預測

我對機器學習非常陌生。對不起，如果我的英語有任何錯誤。機器學習在weka中的分類和預測

我正在使用weka J48分類來預測真或假。我有幾乎999K的訓練集，我用它訓練模型。我用3倍的交叉驗證方法來訓練模型，使我的準確性達到84％。

現在存儲模型後。我試圖在50k數據集上進行測試。這是非常糟糕的結果，其中50％不匹配。我有名義和數字字段的11個屬性。

我不知道爲什麼會發生。

我有兩個問題。

我在java中使用weka api。

2015-11-23 Maxi

你是如何選擇50K套裝進行測試的？ –

其實，我使用30天的訓練數據和1天的數據進行測試和預測。 – Maxi

你如何獲得1天的測試數據？ –

這意味着你的模型是你的999k訓練集並不能很好地適用於你的50k測試集。

除了999k之外，您還應該考慮使用50k數據集的一部分（但不是全部）進行交叉驗證。

您可能還想嘗試高於k = 3的k倍交叉驗證，因爲k = 3次摺疊可能太「粗糙」。祝你好運！

2015-11-23 01:44:18

謝謝，我使用999K的1/3來測試2/3，然後使用測試數據集來預測。你究竟建議什麼？你能否詳細說明一下。我如何處理這個問題。我想我得到的數據越多，訓練得到的結果就越好。 – Maxi

（閱讀以上評論）您的測試和預測數據的一天，不像過去30天用於培訓的「表現」。那麼你如何使用來自所有日子的數據混合，通過AM/PM或按小時分隔？那樣，你用於測試/預測的那一天的任何特徵也可以被正確地模擬/訓練。您也可以在機器學習特定論壇上提出更具體的問題。乾杯! –

我想根據建立在歷史數據上的模型來預測未來的結果。所以，我不能混合這兩個。如果你知道的話，你能否建議一些可以處理決策樹的大數據集的工具。再次感謝Cheers – Maxi

回答