2017-10-15 39 views
1

我想程序的機器學習算法從訓練數據來學習和分類實例的語言。總共有4個分類:波蘭語,法語,斯洛伐克語,德語。測試在語言檢測從訓練完全不同的設置設置

在訓練數據,該數據是完整的句子,但是看一下測試數據時,數據是由剛剛單個字符表示。

例如,我的訓練數據的一個實例是這樣的:

"Et oui cest la fille du patron Il fait tout" 

但我的測試數據是這樣的:

"e e n t l n r i a e i a v i t s r e t n" 

爲什麼我的訓練數據集是從我的測試如此不同數據集,以及該問題的適當特徵選擇是什麼?

回答

0

這是可疑的,你有火車這樣設置。唯一的方法來考慮是使用概率分佈給出
如果你有足夠大的段落就可以計算出百分比值計數的每個字母給定的語言,並與您的數據相匹配。
例如,衆所周知,在足夠大的英文文本字母「a」出現〜8.167%,但是在字母「e」〜12.702%的德國「一」時〜6%和「e」〜16.4%。其他語言有不同的分佈。
檢查這個維基百科文章:https://en.wikipedia.org/wiki/Letter_frequency