我正在嘗試從文本數據構建預測模型。我從文本數據(unigram和bigram)中構建文檔項矩陣,並在其上創建了不同類型的模型(如svm,隨機森林,最近鄰居等)。所有的技術都取得了不錯的成績,但我想改善結果。我嘗試通過更改參數來調整模型,但這似乎並沒有提高性能。對我來說可能的下一步是什麼?文本分析:術語文檔矩陣?
0
A
回答
1
這是不是一個真正的編程問題,但無論如何:
如果你的目標是預測,而不是文本分類,常用的方法是退避模型(Katz Backoff)和插值/平滑,例如Kneser-Ney smoothing。
像Random Forest這樣的更復雜的模型是AFAIK不是絕對必要的,如果你需要快速做出預測的話可能會造成問題。如果您正在使用插值模型,則仍然可以使用數據的保留部分來調整模型參數(lambda)。
最後,我同意閱讀部分的NEO,並會推薦Jurafsky和Martin的「語音和語言處理」。
+0
謝謝。順便提一下,我可以在哪裏發佈這些類型的問題? –
相關問題
- 1. Bigram分析和術語文檔矩陣
- 2. Twitter數據分析 - 術語文檔矩陣中的錯誤
- 3. 如何計算術語文檔矩陣?
- 4. Topicmodels調換術語文檔矩陣
- 5. 構建一個術語文檔矩陣
- 6. 從文本文件創建術語文檔矩陣
- 7. 文本mining-如何建立一個術語文檔矩陣
- 8. 簡單三元組矩陣(文檔術語矩陣)的基本操作
- 9. 如何使用本機R創建文檔術語矩陣
- 10. 很多文章的單詞列表 - 文檔 - 術語矩陣
- 11. 矩陣術語
- 12. 將CSV格式的術語文檔矩陣導入到R
- 13. 如何從文檔術語矩陣中刪除NaN值
- 14. 創建文檔術語矩陣時出現屬性錯誤
- 15. 使用Lucene 4.4生成術語文檔矩陣4.4
- 16. 從剪貼板繪製術語文檔矩陣
- 17. 來自術語文檔矩陣的關聯
- 18. 按行合併兩個文檔術語矩陣
- 19. Python:從列表中創建術語文檔矩陣
- 20. 將函數應用於多個文檔術語矩陣
- 21. 在java中爲LSI實現創建術語文檔矩陣
- 22. 您如何規範化R中文檔術語矩陣的行?
- 23. 從字典中創建文檔 - 術語矩陣
- 24. 使用python從csv讀取術語 - 文檔矩陣
- 25. 只保留文檔術語矩陣中的特定格式R
- 26. 文件,術語矩陣與Quanteda
- 27. 如何用TF-IDF文檔 - 術語矩陣表示新文檔,以及如何用大矩陣實現生產?
- 28. 計算術語x術語矩陣
- 29. 空文檔矩陣
- 30. 過濾行/ R中的文件,術語矩陣文件
來預測究竟是什麼? – user3639557