2013-05-04 53 views
0

我有一個任務可能與數據分析甚至神經網絡有關。確定一些函數的係數

我們有我們的合作伙伴,求職門戶的數據源。源操作數與特定員工不同屬性的數組:

  • 他\她的性別,
  • 年齡,
  • 多年的經驗,
  • 組合(完成的項目數) ,
  • 專業和專業化(網頁設計,網頁編程,管理等),
  • 其他許多(總共約20-30)

每個員工都有自己的薪水(小時)費率。因此,在數學上,我們有一些功能

F(attR1位,attR2位,attr3,...)= A * attR1位+ B * attR2位+ C * attr3 + ...

未知係數。但是我們知道特定參數的函數結果(比方說,我們知道一個擁有20年經驗的男性程序員和10個作品組合中的作品每小時的費用爲40美元)。

所以我們必須找出這些係數(A,B,C ...),所以我們可以預測任何員工的工資。這是最重要的目標。

另一個目標是找出哪些參數是最重要的 - 換句話說,哪些參數會導致函數結果的顯着變化。所以最終我們必須有這樣的東西:「最重要的屬性是多年的經驗,然後投資組合,然後年齡等」。

可能存在一種情況,即不同行業彼此之間差異太大 - 例如,我們可能無法將網頁設計師與經理進行比較。在這種情況下,我們必須將它們分組,並分別爲每個組計算這些評分。但最終我們需要找到「共同」的論點,這對每個團體來說都是常見的。

我在想神經網絡,因爲這是他們可能處理的事情。但我對他們完全陌生,完全不知道該怎麼做。

我非常感謝所有幫助 - 這儀器的使用,什麼樣的算法,甚至是僞代碼示例等

非常感謝你。

+0

搜索術語:線性迴歸,最小二乘和正規方程。 – DrC 2013-05-04 04:07:53

+0

好感謝剛果民主共和國!我會嘗試使用Google搜索。 – Spaceman 2013-05-04 09:00:33

回答

0

這就是(線性)迴歸的最基本的例子。您正在使用線性函數來建模數據,並需要估計參數。

請注意,這實際上是經典數學統計的一部分;不是數據挖掘,而是更老。

有各種方法。鑑於可能會出現異常值,我建議使用RANSAC。

至於重要性,沒有這個歸結爲「這是最大的,A B或C」?