2013-07-02 119 views
1

我試圖重新創建谷歌的"Hello Prediction"算法來測試我的網絡。我從同一個地方得到了我的訓練樣本。ANN:語言檢測


因爲我不希望你按照上面的鏈接,在短約「你好預測」: 這是一個「Hello World」的例子爲谷歌Prediction API進行,基本的訓練爲例 ANN用大訓練集由西班牙文,英文和法文的文本串組成。 在練習結束時,網絡應該能夠檢測到3種語言中的每一種。


現在我面臨着將數據饋送到網絡中。

如何處理可變長度的文本字符串以將其輸入到固定大小的網絡輸入中?

我看到了兩個解決方案,考慮詞序:

  1. 進行網絡輸入足夠大,以適應整個句子。這是最現實的,但浪費的方法。我相信谷歌提出了一個更好的方法。

  2. 歇句子翻譯成固定大小(n)的,像這樣的字符的字符串:。 如果n = 2, 「ABCDE」 變爲[ 「AB」, 「BC」, 「CD」,德「]

有任何人解決了這個成功?是#2,#比1更好嗎?是否有第三種解決方案?

謝謝。

+2

我對「Hello Prediction」一無所知,所以在這裏有些難以理解(我們不應該去閱讀它,帖子應該設法自成一體),但是,從我所看到的情況來看,#1將無法工作,因爲獲得足夠的數據足夠好地訓練是非常不切實際的。 #2聽起來像[n-grams](http://en.wikipedia.org/wiki/N-gram),這在實踐中通常使用。 – Dukeling

+0

@Dukeling我已更新我的問題,以反映您的意見,謝謝。 –

回答

0

你爲什麼不嘗試一些特徵提取?tf_idf在NLP常用我想你可以找到一些其他有用的數字特徵。