1
我想程序的機器學習算法從訓練數據來學習和分類實例的語言。總共有4個分類:波蘭語,法語,斯洛伐克語,德語。測試在語言檢測從訓練完全不同的設置設置
在訓練數據,該數據是完整的句子,但是看一下測試數據時,數據是由剛剛單個字符表示。
例如,我的訓練數據的一個實例是這樣的:
"Et oui cest la fille du patron Il fait tout"
但我的測試數據是這樣的:
"e e n t l n r i a e i a v i t s r e t n"
爲什麼我的訓練數據集是從我的測試如此不同數據集,以及該問題的適當特徵選擇是什麼?