2012-11-26 53 views
0

機器學習最簡單的方法是什麼?即插即用機器學習

我有一個非常實際的應用程序。

一些管理人員在我的大腿上扔了一個「stuff」的數據倉庫,要我告訴他們什麼是驅動銷售。

的數據包括:

sales by client (clients being doctors offices) 
sales by doctor 
products they bought 
client demographics 
all kinds of different date information 

彙總數據,它基本上是每一筆交易的公司所有客戶和每筆交易的詳細信息進行的完整數據。

的數據都存儲在SQL Server 2008

問題:是否有已經在C#中存在/任何工具蟒蛇,我可以連接到將開始分析趨勢/模式/關係數據庫?

更具體地說: 如何使用Python或c#的機器學習算法來提取某種有意義的信息?

+0

我認爲你必須真正瞭解一點的機器學習,然後才能回答這個問題。據我所知,我們還沒有發明甲骨文「給我想要的東西」。有些庫可以使用算法,例如Weka。但是如果你不知道使用哪些算法以及爲什麼使用它們,那麼你不可能得到你想要的。最簡單的入門方法是開始審查一些公開可用的課件:https://www.coursera.org/course/ml –

+0

我剛纔讀了一下:http://www.heatonresearch.com/book /programming-neural-networks-cs-2.html,這對了解所有這些事情是如何工作的都非常有幫助。有一個證券交易所的示例,其中包含完整的源代碼,可顯示模式和預測。 –

+0

我真的很喜歡「Programming Collective Intelligence」(http://shop.oreilly.com/product/9780596529321.do)。它非常廣泛,包括搜索,優化,分類和建模技術。它使用python,並且有許多使用fb,hotornot,finance等數據集的現實世界示例,這些數據集與您想要執行的建模/功能分析相關。 –

回答

1

谷歌有一個預測/機器學習API,如果你對結果比理解更感興趣,那麼它是非常棒的(儘管它有一定的背景是很有幫助的,所以你可以知道這些東西,重新嘗試做甚至是有道理的)。

https://developers.google.com/prediction/

+0

感謝我現在正在嘗試這一點。你有這方面的經驗嗎? –

+0

看起來像我們是鄰居!我都在SD。 UTC確切! –

+0

我沒有用過,但我聽說過很多很棒的東西。 – FoolishSeth

1

您將獲得捆綁在SQL Server 2008中的數據挖掘工具。您應該首先使用類似於「SQL Server 2008中的數據挖掘簡介」這樣的示例進行操作。

+0

酷!我不知道這存在。似乎是一個非常陡峭的學習曲線。 –

+0

是的,有很多東西需要學習,但它非常強大,我建議這是最快捷的方式來達到你需要的結果(並讓自己非常有用) –

+0

偉大的一點!你有沒有試過谷歌預測API?這真是太神奇了! –

1

我不知道從哪裏開始解決這個問題。首先,這裏的問題不是「機器學習」。在那裏沒有任何軟件可以接收一堆數據庫表並回答諸如「推動銷售」的問題。天哪,人們甚至都沒有做好這件事,所以要問無人監督的電腦是很多的。

我不清楚,數據甚至包含問題的答案。數據確實包含已售出物品和各種其他因素的說明。這些「推動」銷售是否相當主觀。

其他人對編程工具提出了寶貴的建議。我強烈建議你專注於數據挖掘工具而不是編程工具。 SQL Server確實有一個內置的工具。我不確定這是否有幫助。你可以找到一個工具清單here。其中一些是免費軟件。如果你通過編程訪問它們,你將面臨兩個問題。首先,你將只關注問題的「編程」方面而不是結果。第二,即使你找到了好的結果,你也不能將它們傳達給別人。

最後,我對他們真正想要的東西的猜測是一個工具,它可以沿着各個維度對數據進行切片和裁切 - 也可在SQL Server中使用。您可以將一組表格放在一個事實表結構之後(如Ralph Kimball在他的書中描述的「The Data Warehouse Toolkit」)。這聽起來像是一個報告問題,而不是機器學習問題。

+0

非常感謝你的回答,戈登。我尊敬地不同意你關於查看差異維度的數據。這不是一個線性問題。有很多變數涉及業務,我希望能夠抓住一堆,並找到某種模式 –

+0

數據是否組織爲一個事實表?從交易記錄中提取「維度」信息將花費您大部分的工作量。 –

+0

是的一切都已經在維度和事實 –