2010-09-18 51 views
4

我有一個包含許多簡歷的數據庫,包括性別,年齡,地址,受教育年限的結構化數據以及每個人的許多其他參數。從CV進行預測

對於約10%的樣本,我也有關於他們在某個時間點所做的某些操作的額外數據。例如,Jane於1998年7月獲得了住房貸款,或者John於2007年1月開始了飛行員培訓,並於2007年12月獲得了執照。

我需要一種算法,對於每個操作,在將來的時間增量中,每個人會發生的概率。例如,比爾2011年住房貸款的機會爲2%,2012年爲3.5%等。

我應該如何處理這個問題?迴歸分析? SVM?神經網絡?還有別的嗎?

有沒有甚至有一些標準的工具/庫,我可以使用只是明顯的自定義?

+6

不要試圖自己做這個。僱用有體面的統計培訓的人。 – 2010-09-18 21:25:05

+2

它被稱爲水晶球算法。 – 2010-09-18 21:25:37

+0

我想這也很大程度上取決於你有多少記錄(以及這些記錄有多麼具有代表性),你實際上可以推斷出有用的預測。 – Archimedix 2010-09-18 21:42:10

回答

1

我認爲,在Y發生的情況下,X發生的概率恰好是貝葉斯推斷。

+0

正如我所理解的問題沒有Y.只有X的機會發生的問題。 – Marek 2010-10-04 09:28:44

+0

這不一定是貝葉斯,也不是頻率主義者。但是,是的,一個隨機模型確實出現了。 :) – Iterator 2011-09-06 18:44:40

1

樓是對的,這是'貝葉斯推論'的情況。

解決這個問題的最佳工具/庫是R統計編程語言(r-project.org)。

取R中看看貝葉斯推理庫: http://cran.r-project.org/web/views/Bayesian.html

有多少人是在「樣品的10%」?如果它低於100人左右,我會擔心分析結果不會很大。如果是1000人或更多,結果將會相當不錯(經驗法則)。

我會先把數據導出到R(r-project)並做一些必要的數據清理工作。然後找一個熟悉R和高級統計的人,他將能夠很快解決這個問題。或者嘗試一下自己,但R需要一段時間。

+0

同意:僱人。即使不使用貝葉斯方法,而是使用R的其他推理工具包(例如機器學習),最好知道你在做什麼。沒有水晶球。 – Iterator 2011-09-06 18:46:23

1

關於工具/庫的選擇,我建議你試試Weka。這是一個開源工具,用於試驗數據挖掘機器學習。 Weka提供了多種閱讀,處理和過濾數據的工具,以及預測和分類工具。

但是,你必須在上述領域有一個堅實的基礎,以爭取有用的結果。