我目前正在研究機器學習問題,並在Dev環境中創建了一個模型,其中數據集的數量低至幾十萬。如何將模型運輸到生產數據集非常大,數十億的環境。運輸機器學習模型的推薦方法是什麼?
有傳送機器學習模型的一般推薦方法嗎?
我目前正在研究機器學習問題,並在Dev環境中創建了一個模型,其中數據集的數量低至幾十萬。如何將模型運輸到生產數據集非常大,數十億的環境。運輸機器學習模型的推薦方法是什麼?
有傳送機器學習模型的一般推薦方法嗎?
取決於您使用的開發平臺。我知道DL4J使用Hadoop Hyper參數服務器。我用C++編寫ML prog,並使用自己生成的數據,TensorFlow和其他人使用使用Python壓縮和解壓縮的數據。對於實時數據,我建議使用其中一個Boost庫,因爲我發現它在處理大量RT數據時很有用,例如使用OpenCV進行圖像處理。但我想象一定有一套適合你的數據的圖書館。 CSV數據很容易使用C++或Python進行處理。 Realtime(Boost),Image(OpenCV),csv(Python),或者您可以編寫一個程序,使用Bash(Tricky)將數據傳輸到您的程序中。您可以讓它以某種方式緩衝數據,然後定期將數據提供給ML程序,然後檢索數據並將其存儲在Mysql數據庫中。聽起來就像你需要一個數據服務器或一個數據管理程序,所以ML算法只能處理其大塊數據。希望有所幫助。