我建議您訪問在這真棒地圖由scikit學習團隊http://scikit-learn.org/stable/tutorial/machine_learning_map
選擇正確的估計作爲描述自己案件的細節將是一項艱鉅的任務(我完全理解你沒有做到這一點!)我鼓勵你問你自己幾個問題。因此,我認爲「選擇正確的評估者」的地圖是一個好的開始。
從字面上看,進入「啓動」節點地圖,並按照路徑:
等。最後,您可能會在某個時間點結束,看看您的結果是否與地圖中的建議相匹配(即,我最終是否得到了更好的結果?)。如果是這樣,深入閱讀文檔,並問自己爲什麼一個分類器在文本數據或任何洞察力方面表現更好。
正如我告訴你,我們不知道你的數據的細節,但你應該可以問這樣的問題:什麼類型的數據我有(文本,二進制,...),多少樣本,需要預測多少類......所以理想情況下,您的數據會給您提供一些關於問題背景的提示,因此爲什麼有些評估者的表現要好於其他評估者。
但是,是的,你的問題是甚廣的單一的答案掌握(和特製不知道的問題,您正在處理的類型)。例如,您也可以檢查是否有任何這些方法更傾向於過度使用。
的建議清單可能是無止境的,這就是爲什麼我鼓勵你開始定義的你正在處理和數據問題的類型(加上樣品的數量,是歸?是它驅散?您是否使用稀疏矩陣表示文本,您的輸入是否從0.11到0.99浮動)。
無論如何,如果你想分享你的數據的一些細節,我們也許能夠更準確地回答。希望這有助於一點點,雖然;)
我希望你調整你已經嘗試了所有的分類,特別是決策樹分類的參數。你能否更詳細地描述你的數據集? –
是的,我在調諧時嘗試了很多參數。數據集涉及500,000行,我有15個特徵,但其中一些特徵是某些文本的子串的各種組合,所以它自然地擴展爲數以萬計的列作爲稀疏矩陣。我確實明白不同大小的行和列對於不同大小的ML是多麼的適合,但是如果你對它們進行全面測試並得到不同的結果,我不知道還有什麼其他的結論可以推斷出來。 – KubiK888