貝葉斯分類器訓練集

-1

我正在研究一個簡單的樸素貝葉斯分類器，我對它有一個概念上的問題。貝葉斯分類器訓練集

我知道訓練集非常重要，所以我想知道在下面的例子中什麼構成了好的訓練集。假設我正在對網頁進行分類並判斷它們是否相關。這個決定所基於的因素考慮到了該頁面上存在的某些屬性的概率。這些將是某些關鍵字，可以增加頁面的相關性。關鍵字是蘋果，香蕉，芒果。相關/不相關的分數是針對每個用戶的。假設用戶標記頁面相關/不相關的可能性相同。

現在對於訓練數據，爲了得到我的分類器的最佳訓練，是否需要將相關結果的數目與不相關的結果相同？我是否需要確保每個用戶都有相關/不相關的結果給他們制定一個好的訓練集？我需要記住什麼？

來源

2014-01-16 John Baum

這是一個微不足道的話題，因爲涉及到數百萬的因素。 Python是一個很好的例子，因爲它驅動了大部分goolge（就我所知）。這使我們開始了谷歌的一開始 - 幾年前，在谷歌之前曾經談論過搜索引擎的拉里佩奇的採訪 - 例如，當他鍵入「大學」這個詞時，他發現的第一個結果有這個詞「大學」在它的標題幾次。

回到樸素貝葉斯分類器 - 有一些非常重要的關鍵因素 - 假設和模式識別。和關係當然。例如你提到的蘋果 - 可能有一些可能性。例如：蘋果 - 如果吃，維生素和形狀存在，我們假設我們很可能談論一個水果。如果我們提到電子，屏幕，也許史蒂夫喬布斯 - 這應該是顯而易見的。如果我們談論的是宗教，上帝，花園，蛇 - 那麼它必定與亞當和夏娃有關。

因此，根據您的需要，您可以擁有基本的數據段，其中每個數據段都可以包含在其中，或者包含更多細節的複雜結構。所以是的 - 你基於大多數人的基本假設。基於這些，您可以創建更復雜的模式以進一步識別 - Apple-iPod，iPad - 在名稱中包含類似的模式，包含類似的關鍵字，提及某些人 - 最有可能相互關聯。

無關的數據很難發現 - 在這一點上，您可能認爲我擁有多個Apple設備，在大型iMac上編寫，但事實並非如此。所以這將是一個非常錯誤的假設。所以分類器本身必須做出非常好的分割和分析，才能得出確切的結論。

來源

2014-01-16 23:43:03

如果我的數據是由用戶分開的（即，user_id有一組相關的頁面，他們搜索哪些然後排序是否相關）是否需要構建圍繞同時擁有兩種類型頁面的用戶的培訓集？還是它有所作爲？ –

所以你正在使用關係數據庫？根據事物的規模，你可能想要選擇一種不同的方法，就像現在每個人似乎都做的一樣。例如，我在工作中使用了couchbase，這是一個面向文檔的數據庫。我承認 - 從設置和配置的角度來看，這在可靠性和可擴展性方面非常可怕。這也可以讓你在他們的檔案中建立訓練集。 –

不幸的是數據庫不在我的控制之下。你能提出我可以用我可用的資源做什麼嗎？ –

貝葉斯分類器訓練集

回答

相關問題