2
我一直在嘗試使用用戶數據構建預測模型。模型的輸入是文檔的元數據(發佈日期,標題等)和文檔標籤是用戶的喜好(喜歡/不喜歡)。我想問一些我曾經遇到過的問題,希望得到一些答案:培訓機器學習預測器
- 有更多喜歡的文件比厭惡。我讀的地方,如果有人列車的使用比其他的這一個標籤的方式更多的輸入模型影響不好的表現手法(模型趨於一切歸類到標籤/結果具有廣大的輸入
有可能有一個ML算法的輸入,例如邏輯迴歸在數字和詞語方面是混合的,以及可以如何完成,如:
input = [18,23,1,0,'cryptography']帶標籤= ['Like']
我們還可以使用一個向量(表示一個字,使用tfidf等)作爲輸入特徵(例如50維向量)嗎?
- 爲了構建使用文本數據這樣做的唯一途徑的預測模型是通過獲取一字典出在我們的文件中提到的每一個字,然後構建一個二進制輸入如果某個字詞提到與否,將決定?使用這樣一個版本,雖然我們失去了收藏權的期限的權重? 我們可以在監督式學習模型中使用某個word2vec向量作爲單個輸入嗎?
謝謝你的時間。
謝謝你的見解隊友!偉大的建議! – Swan87 2014-12-02 22:12:51