「批量處理」我的意思是一個靜態數據集事實(如在一個CSV)一次處理,以提取知識。 「在線」時,它使用一個直播支持存儲:在事件發生時添加(「X購買Y」),並在此實時數據上發生查詢(「您將推薦給正在查看y的人?「)。在線(而不是批量處理)數據挖掘軟件包
我有(錯)實時使用的術語,但我不意味着結果必須在一個固定的時間內。 ('''編輯:實時替換在線以上''')
我記住了一個使用實時數據的推薦引擎。然而,我遇到的所有在線資源(如SO問題)都使在實時和批量處理數據挖掘包之間沒有區別。我只好逐個搜索:
- Carrot2從Lucene的/ Solr的以及其他現場數據集(聯機)
- Knime其不計劃對靜態文件執行(散裝)
- 亨利馬烏它運行在Hadoop讀取(和預凝膠型Giraph未來)(在線?)
- 的商業包裝與卡桑德拉(在線整合?)
什麼是在線數據挖掘軟件包?
有沒有理由爲什麼文獻沒有區分在線和批量處理軟件包?或者是所有的實際數據挖掘實際上是批量操作?
我編輯了你的文章,因爲適當的術語恕我直言,是「在線操作」(而不是工作在數據的副本上)。 – 2012-03-11 11:09:09