2015-11-23 121 views
1

我對機器學習非常陌生。對不起,如果我的英語有任何錯誤。機器學習在weka中的分類和預測

我正在使用weka J48分類來預測真或假。我有幾乎999K的訓練集,我用它訓練模型。我用3倍的交叉驗證方法來訓練模型,使我的準確性達到84%。

現在存儲模型後。我試圖在50k數據集上進行測試。這是非常糟糕的結果,其中50%不匹配。我有名義和數字字段的11個屬性。

我不知道爲什麼會發生。

我有兩個問題。

  1. 我該如何訓練以在測試集上執行得更好。
  2. 什麼可能是可能的問題。

我在java中使用weka api。

+0

你是如何選擇50K套裝進行測試的? –

+0

其實,我使用30天的訓練數據和1天的數據進行測試和預測。 – Maxi

+0

你如何獲得1天的測試數據? –

回答

2

這意味着你的模型是你的999k訓練集並不能很好地適用於你的50k測試集。

除了999k之外,您還應該考慮使用50k數據集的一部分(但不是全部)進行交叉驗證。

您可能還想嘗試高於k = 3的k倍交叉驗證,因爲k = 3次摺疊可能太「粗糙」。祝你好運!

+0

謝謝,我使用999K的1/3來測試2/3,然後使用測試數據集來預測。你究竟建議什麼?你能否詳細說明一下。我如何處理這個問題。我想我得到的數據越多,訓練得到的結果就越好。 – Maxi

+0

(閱讀以上評論)您的測試和預測數據的一天,不像過去30天用於培訓的「表現」。那麼你如何使用來自所有日子的數據混合,通過AM/PM或按小時分隔?那樣,你用於測試/預測的那一天的任何特徵也可以被正確地模擬/訓練。您也可以在機器學習特定論壇上提出更具體的問題。乾杯! –

+0

我想根據建立在歷史數據上的模型來預測未來的結果。所以,我不能混合這兩個。如果你知道的話,你能否建議一些可以處理決策樹的大數據集的工具。再次感謝Cheers – Maxi