從CV進行預測

我有一個包含許多簡歷的數據庫，包括性別，年齡，地址，受教育年限的結構化數據以及每個人的許多其他參數。從CV進行預測

對於約10％的樣本，我也有關於他們在某個時間點所做的某些操作的額外數據。例如，Jane於1998年7月獲得了住房貸款，或者John於2007年1月開始了飛行員培訓，並於2007年12月獲得了執照。

我需要一種算法，對於每個操作，在將來的時間增量中，每個人會發生的概率。例如，比爾2011年住房貸款的機會爲2％，2012年爲3.5％等。

我應該如何處理這個問題？迴歸分析？ SVM？神經網絡？還有別的嗎？

有沒有甚至有一些標準的工具/庫，我可以使用只是明顯的自定義？

2010-09-18 Haim B

不要試圖自己做這個。僱用有體面的統計培訓的人。 – 2010-09-18 21:25:05

它被稱爲水晶球算法。 – 2010-09-18 21:25:37

我想這也很大程度上取決於你有多少記錄（以及這些記錄有多麼具有代表性），你實際上可以推斷出有用的預測。 – Archimedix 2010-09-18 21:42:10

我認爲，在Y發生的情況下，X發生的概率恰好是貝葉斯推斷。

2010-09-18 21:27:22

正如我所理解的問題沒有Y.只有X的機會發生的問題。 – Marek 2010-10-04 09:28:44

這不一定是貝葉斯，也不是頻率主義者。但是，是的，一個隨機模型確實出現了。 :) – Iterator 2011-09-06 18:44:40

樓是對的，這是'貝葉斯推論'的情況。

解決這個問題的最佳工具/庫是R統計編程語言（r-project.org）。

有多少人是在「樣品的10％」？如果它低於100人左右，我會擔心分析結果不會很大。如果是1000人或更多，結果將會相當不錯（經驗法則）。

我會先把數據導出到R（r-project）並做一些必要的數據清理工作。然後找一個熟悉R和高級統計的人，他將能夠很快解決這個問題。或者嘗試一下自己，但R需要一段時間。

2010-10-11 22:11:03 mrsteve

同意：僱人。即使不使用貝葉斯方法，而是使用R的其他推理工具包（例如機器學習），最好知道你在做什麼。沒有水晶球。 – Iterator 2011-09-06 18:46:23

關於工具/庫的選擇，我建議你試試Weka。這是一個開源工具，用於試驗數據挖掘和機器學習。 Weka提供了多種閱讀，處理和過濾數據的工具，以及預測和分類工具。

但是，你必須在上述領域有一個堅實的基礎，以爭取有用的結果。

2011-12-09 11:01:14 Eric

回答