2014-03-07 68 views
0

正在開發正在輸入文本,並輸出與在字中給出這取決於它們的情緒的數值句子和單詞作爲行和列的矢量(文檔)程序。功能性詞語(例如,was,were)將被賦予0.01的值。這個程序背後有一個數據庫,其中單詞的數值取決於它們的正負極性。這個數據庫會給這個詞提供一個先前的極性,這個極性可能會根據其上下文的極性而改變。要解決的問題是數據庫中的單詞的數值範圍。用什麼樣的數值來給一個詞賦予情感分數?

+1

我想你應該用一下你的數據集,並手動微調您的算法來找出這個範圍 – Leo

+0

我利奧同意:選擇基於直覺的初始設置和實際數據進來開始微調。 – nablex

回答

0

我的意思是,如果你已經設置基本的話.01你爲什麼不乾脆放棄的話基於長度的點值。困難的部分將擺脫所有常見的話。

1

我認爲要考慮一下原始方法是看,你可能有(約)最大的話,並且你想有兩個數值之間的差。/0.01 = 2/0.01 = 200個字 - 例如用打算從-1到1和0.01的分辨率的範圍可以最多((-1)1)有。我希望你明白這一點。

所以有1000個積極的話,用你的0.01範圍的數值分辨率500個否定詞的集合必須是 - (500 * 0.01)至(1000 * 0.01)= -5〜10

我希望我能正確理解你的問題。

一個忠告:在使用double/float記住,數值計算精度有限的使用,例如,0.01將無法精確保存爲0.01,所以你絕不能使用==在你的代碼進行比較,就必須是> =或< =,你可能需要調整你的邏輯有時會實現這一目標。

相關問題