2011-11-18 17 views
2

我需要訓練一個神經網絡以將某些文本文檔分類爲布爾類(NN具有一個輸出爲「是」或「否」值)。
是否有任何算法來查找最佳輸入參數(例如詞的存在,詞語,句子和/或頻率/重複詞& ...)?
如果不是,你可以給我一個起點來找到這些參數(我應該如何選擇它們)?查找用於分類文本文檔的神經網絡輸入參數

感謝

+1

理想情況下,以上所有!如果你可以給神經網絡的單詞,術語,單詞n-gram,字母n-gram等,那麼你可以給它更多的輸入來做出決定。給出NN句子或任何大於詞彙的詞彙可能沒有意義。然而,你擁有的輸入越多,算法運行得越慢,所以你必須調整它,直到你得到滿意的結果。儘管你可以建立另一個AI算法來爲神經網絡提供不同的輸入,但是你最終也會遇到與AI算法相同的問題。 – Kiril

+0

@李瑞克:我不是說給NN一個句子。我的意思是給布爾輸入,顯示是否存在術語,...和/或一個單詞的重複次數,...並且我沒有考慮超過10-15個輸入 – RYN

+1

我的答案不會改變很多......沒有一種算法可以爲你優化(除非你建立另一個AI算法來完成它),所以你應該嘗試用所有可能提高精度的東西來調整NN。這是一個乏味的過程,我不知道解決它的方法。 – Kiril

回答

1

我知道的標準方法是使用的字/項的載體,並將其分配使用的學習或統計算法陰性或陽性得分。即使感知器學習應該足夠了,你只需要一組好的和消極的例子。

我知道所有垃圾郵件過濾器的工作方式。他們工作得很好。