2014-01-16 131 views
-1

我正在研究一個簡單的樸素貝葉斯分類器,我對它有一個概念上的問題。貝葉斯分類器訓練集

我知道訓練集非常重要,所以我想知道在下面的例子中什麼構成了好的訓練集。假設我正在對網頁進行分類並判斷它們是否相關。這個決定所基於的因素考慮到了該頁面上存在的某些屬性的概率。這些將是某些關鍵字,可以增加頁面的相關性。關鍵字是蘋果,香蕉,芒果。相關/不相關的分數是針對每個用戶的。假設用戶標記頁面相關/不相關的可能性相同。

現在對於訓練數據,爲了得到我的分類器的最佳訓練,是否需要將相關結果的數目與不相關的結果相同?我是否需要確保每個用戶都有相關/不相關的結果給他們制定一個好的訓練集?我需要記住什麼?

回答

1

這是一個微不足道的話題,因爲涉及到數百萬的因素。 Python是一個很好的例子,因爲它驅動了大部分goolge(就我所知)。這使我們開始了谷歌的一開始 - 幾年前,在谷歌之前曾經談論過搜索引擎的拉里佩奇的採訪 - 例如,當他鍵入「大學」這個詞時,他發現的第一個結果有這個詞「大學」在它的標題幾次。

回到樸素貝葉斯分類器 - 有一些非常重要的關鍵因素 - 假設和模式識別。和關係當然。例如你提到的蘋果 - 可能有一些可能性。例如: 蘋果 - 如果吃,維生素和形狀存在,我們假設我們很可能談論一個水果。 如果我們提到電子,屏幕,也許史蒂夫喬布斯 - 這應該是顯而易見的。 如果我們談論的是宗教,上帝,花園,蛇 - 那麼它必定與亞當和夏娃有關。

因此,根據您的需要,您可以擁有基本的數據段,其中每個數據段都可以包含在其中,或者包含更多細節的複雜結構。所以是的 - 你基於大多數人的基本假設。基於這些,您可以創建更復雜的模式以進一步識別 - Apple-iPod,iPad - 在名稱中包含類似的模式,包含類似的關鍵字,提及某些人 - 最有可能相互關聯。

無關的數據很難發現 - 在這一點上,您可能認爲我擁有多個Apple設備,在大型iMac上編寫,但事實並非如此。所以這將是一個非常錯誤的假設。所以分類器本身必須做出非常好的分割和分析,才能得出確切的結論。

+0

如果我的數據是由用戶分開的(即,user_id有一組相關的頁面,他們搜索哪些然後排序是否相關)是否需要構建圍繞同時擁有兩種類型頁面的用戶的培訓集?還是它有所作爲? –

+0

所以你正在使用關係數據庫?根據事物的規模,你可能想要選擇一種不同的方法,就像現在每個人似乎都做的一樣。例如,我在工作中使用了couchbase,這是一個面向文檔的數據庫。我承認 - 從設置和配置的角度來看,這在可靠性和可擴展性方面非常可怕。這也可以讓你在他們的檔案中建立訓練集。 –

+0

不幸的是數據庫不在我的控制之下。你能提出我可以用我可用的資源做什麼嗎? –