2016-08-16 49 views
1

我在抓取大約200,000個網站,尋找某些類型的媒體發佈在小型企業的網站上。我有一個pickled linearSVC,我已經訓練過預測在網頁上找到的鏈接包含我正在尋找的媒體類型的媒體的可能性,並且它的表現相當好(總體精確度在95%左右)。但是,我希望刮板在刮擦時使用新數據定期更新分類器。將訓練數據添加到現有的LinearSVC

所以我的問題是,如果我已經加載了pickle sklearn LinearSVC,有沒有一種方法可以添加新的訓練數據而無需重新訓練整個模型?或者我是否必須加載所有以前的訓練數據,添加新的數據並訓練一個全新的模型?

回答

2

您不能將數據添加到SVM,並獲得與將其添加到原始訓練集相同的結果。您既可以使用以前解決方案(應該更快)開始的擴展訓練集進行再培訓,也可以只使用新數據進行訓練,並且與以前的解決方案完全不同。

只有很少的模型可以做你想在這裏實現的內容 - 比如Ridge迴歸或線性判別分析(及其核心 - 嶺內迴歸或Kernel Fischer判別,或「極端」 - 對象 - ELM或EEM),它們具有能夠「即時」添加新訓練數據的特性。

+0

您提到的模型可以作爲優秀的二進制文本分類器嗎?它們與SVC的準確性相媲美嗎?謝謝! – dataSci

+0

它們都可以作爲二元分類器,在某些問題上它們會比svm更強大。 Nlp是非常具體的領域(非常內部doverse)sp你必須檢查自己。還幼稚貝葉斯哈這個屬性 – lejlot

+0

太好了,謝謝! – dataSci