對於使用R/Python的1-2%的樣本數據,我有一個適合的機器學習分類器,我對精度測量(精度,召回率和F_score)非常滿意。對一個非常大的數據集進行評分
現在我想得分了巨大的數據庫,70萬行/與這個分類這是在R.編碼
信息有關數據集駐留在Hadoop的/蜂房環境實例:
70萬元X 40個變量(列):大約18個變量是分類的,其餘22個是數字(包括整數)
我該如何去做呢?有什麼建議麼 ?
我曾想過做的事情是:
一)組塊了在1M增量數據從CSV文件中Hadoop的系統和餵養它與R
二)某種類型批 - 處理。
它不是一個實時系統,所以不需要每天都進行,但我仍然想在2-3小時內對它進行評分。
分類器使用樣本數據集構建 - 即只有約1%的數據。但我會研究RHadoop。 –