2

我一直在嘗試使用用戶數據構建預測模型。模型的輸入是文檔的元數據(發佈日期,標題等)和文檔標籤是用戶的喜好(喜歡/不喜歡)。我想問一些我曾經遇到過的問題,希望得到一些答案:培訓機器學習預測器

  1. 有更多喜歡的文件比厭惡。我讀的地方,如果有人列車的使用比其他的這一個標籤的方式更多的輸入模型影響不好的表現手法(模型趨於一切歸類到標籤/結果具有廣大的輸入
  2. 有可能有一個ML算法的輸入,例如邏輯迴歸在數字和詞語方面是混合的,以及可以如何完成,如:

    input = [18,23,1,0,'cryptography']帶標籤= ['Like']

    我們還可以使用一個向量(表示一個字,使用tfidf等)作爲輸入特徵(例如50維向量)嗎?

  3. 爲了構建使用文本數據這樣做的唯一途徑的預測模型是通過獲取一字典出在我們的文件中提到的每一個字,然後構建一個二進制輸入如果某個字詞提到與否,將決定?使用這樣一個版本,雖然我們失去了收藏權的期限的權重? 我們可以在監督式學習模型中使用某個word2vec向量作爲單個輸入嗎?

謝謝你的時間。

回答

1
  1. 您可能需要欠採樣更大類(取小的隨機樣本以匹配較小的類的大小),過採樣較小類(自舉樣本),或使用一種算法,支撐不平衡的數據 - 爲此,您需要閱讀文檔。

  2. 你需要把你的話變成文字載體。列是你的語料庫中唯一的單詞。行是文件。單元格值是以下情況之一:該單詞是否出現在文檔中,出現的次數,出現的相對頻率或TFIDF得分。然後,您可以將這些列與其他非單詞列一起使用。

現在,你可能有更多的列比列,這意味着你會得到與基於矩陣的算法,在這種情況下,你需要像SVM或樸素貝葉斯一個奇點。

+0

謝謝你的見解隊友!偉大的建議! – Swan87 2014-12-02 22:12:51