我目前正在試驗涉及分類模型監督訓練的ML任務。到目前爲止,我已經有了〜5M的訓練實例和〜5M的交叉驗證實例。目前,每個例子都有46個特徵,但是我可能想在不久的將來再生成10個特徵,所以任何解決方案都應該留出一些改進空間。機器學習任務:使用什麼工具?
我的問題是以下幾點:我用什麼工具來解決這個問題?我想使用隨機森林或SVM,但是我擔心後者在我的情況下可能會太慢。我已經考慮過Mahout,但是因爲它似乎需要一定量的配置以及與命令行腳本混雜在一起而轉身離開。我寧願直接針對一些(有據可查的!)庫進行編碼,或者用GUI來定義我的模型。
我還應該指出我正在尋找能夠在Windows上運行的東西(沒有諸如cygwin之類的東西),並且那些能夠很好地與.NET搭配的解決方案非常值得讚賞。
你可以想象,到時候,來了,該代碼將在Cluster Compute Eight Extra Large Instance上Amazon EC2運行,所以任何使用了大量的內存和多核CPU的歡迎。
最後但並非最不重要的,我要指定我的數據集就是密集的(在沒有缺失值/所有列的值對每個向量)
有許多工具可供使用(首先,請參閱KDnuggets上的軟件列表:http://www.kdnuggets.com/software/index.html)。雖然你的問題描述消除了其中的一些,但仍有一些數字可以滿足。我不確定你的意思是「與.NET一起玩好」,但是任何有價值的工具都應該提供模型的報告或源代碼,這些代碼可以很容易地轉換爲.NET代碼。 – Predictor 2011-12-24 12:16:12
感謝您的鏈接,一旦我寫了這個,將盡快檢查出來。至於與.NET的良好配合,這意味着某些具有可編程接口來啓動這項工作,或者甚至是一個.NET庫(或可用的包裝器)的東西比其他東西更好。 – em70 2011-12-24 12:31:03