使用數據挖掘,我們能夠使用像關聯等技術在大量數據中找到有用的模式,並且必須存在一些開源工具(這是一些例子?)。關於數據挖掘的基本查詢
這是基於拉取還是基於推送?我的意思是,我們是否提供數據集以及特定查詢作爲數據挖掘引擎的輸入,並且它提供了我們的答案(如在SQL中)或者我們只提供大型數據集作爲引擎的輸入,並且它自己查找模式(我們從來不知道它存在和/或我們不能爲此提出查詢),因此我們並沒有真正從中得到任何具體的查詢,它推動了我們的模式。
維基百科文章的一些快速閱讀並沒有明確地澄清我的疑惑。
使用數據挖掘,我們能夠使用像關聯等技術在大量數據中找到有用的模式,並且必須存在一些開源工具(這是一些例子?)。關於數據挖掘的基本查詢
這是基於拉取還是基於推送?我的意思是,我們是否提供數據集以及特定查詢作爲數據挖掘引擎的輸入,並且它提供了我們的答案(如在SQL中)或者我們只提供大型數據集作爲引擎的輸入,並且它自己查找模式(我們從來不知道它存在和/或我們不能爲此提出查詢),因此我們並沒有真正從中得到任何具體的查詢,它推動了我們的模式。
維基百科文章的一些快速閱讀並沒有明確地澄清我的疑惑。
由於開放源碼看看Weka。
關於推拉的事情,好吧,這兩者都有點。但並不那麼簡單。你一定在找東西。例如。如果你正在尋找集羣,有無監督算法,這將給你一個最小指導的答案。
實踐中,如果您瞭解所分析的數據,並且正在查看有意義的規律和模式,則事情更有意義。
與Weka一起玩會讓你更好地瞭解各種可能性。
我最近用的一個很棒的工具是scikit-learn