我正在研究一個簡單的樸素貝葉斯分類器,我對它有一個概念上的問題。貝葉斯分類器訓練集
我知道訓練集非常重要,所以我想知道在下面的例子中什麼構成了好的訓練集。假設我正在對網頁進行分類並判斷它們是否相關。這個決定所基於的因素考慮到了該頁面上存在的某些屬性的概率。這些將是某些關鍵字,可以增加頁面的相關性。關鍵字是蘋果,香蕉,芒果。相關/不相關的分數是針對每個用戶的。假設用戶標記頁面相關/不相關的可能性相同。
現在對於訓練數據,爲了得到我的分類器的最佳訓練,是否需要將相關結果的數目與不相關的結果相同?我是否需要確保每個用戶都有相關/不相關的結果給他們制定一個好的訓練集?我需要記住什麼?
如果我的數據是由用戶分開的(即,user_id有一組相關的頁面,他們搜索哪些然後排序是否相關)是否需要構建圍繞同時擁有兩種類型頁面的用戶的培訓集?還是它有所作爲? –
所以你正在使用關係數據庫?根據事物的規模,你可能想要選擇一種不同的方法,就像現在每個人似乎都做的一樣。例如,我在工作中使用了couchbase,這是一個面向文檔的數據庫。我承認 - 從設置和配置的角度來看,這在可靠性和可擴展性方面非常可怕。這也可以讓你在他們的檔案中建立訓練集。 –
不幸的是數據庫不在我的控制之下。你能提出我可以用我可用的資源做什麼嗎? –