2011-06-13 52 views
-2

我想知道我可以做的實驗的算法列表,以根據輸入集合預測癌症或發熱或患者身上的任何事情。 。假設我有數以百萬計的數據,所以我想嘗試最好的算法來預測...我對數據挖掘和機器學習非常陌生......我想要預測/預測算法列表,我可以嘗試進行樣本實驗

+1

我對算法一無所知,但也許那些知道需要更多信息。例如輸入等的例子?也許描述一個測試用例? – Steven 2011-06-13 21:45:07

+0

你的預算是多少? – revdrjrr 2011-06-13 21:45:07

回答

2

如果您正在專門研究估計某些事物的概率,那麼您需要使用生成概率的機器學習方法。大多數只生成一個類標籤:是/否。

最着名的估計概率的算法是Logistic迴歸。實現可在Weka中找到。

+0

Weka的J48決策樹比癌症數據的邏輯迴歸具有更好的準確性。根據數據您需要測試不同的算法並應用。看看你是否沒有過度配合。 – 2018-02-05 09:52:06

2

這個問題有點含糊,我可以只給出一個模糊的答案:使用全能的SVM!爲您的數百萬輸入向量提供SVM分類器,並且它應該能夠在之後爲您提供最新的預測。

如果您正在尋找SVM的實現,請查看libsvm,它幾乎包含所有正常的編程語言中的包裝。

+0

爲全能SVM +1! – Stompchicken 2011-06-14 10:41:05

0

用於開始大量機器學習庫實驗的最流行的工具是Weka。在這裏你可以上傳你的數據並嘗試許多算法。它的弱點在於可擴展性,但對數據編排來說並不是問題。

3

當前和最流行的預測和分類算法之一是利奧佈雷曼的Random Forests (RF)。它的實現也可以在weka中找到。