2
給定一組文本(可能是書籍,文章,文檔等),如何爲每個文本找到相關關鍵字? 常識表明到:查找文本關鍵字的算法
- 分裂的話
- 排除常用詞(也稱爲停的話,如「一, 於,在」)
- 數字頻率
- 給予對每個單詞進行評分,並考慮文件和其他單據中每個單詞的頻率,文件的單詞數量和所有文件的單詞總數。
現在的問題是:這是一個很好的公式來做到這一點?
給定一組文本(可能是書籍,文章,文檔等),如何爲每個文本找到相關關鍵字? 常識表明到:查找文本關鍵字的算法
現在的問題是:這是一個很好的公式來做到這一點?
我開發了一個。
對於每個字計算該比率:
(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
(number of words in this text) * (frequency of word in all texts)
關鍵字是那些單詞,其比例爲最高20%(對於本doucument)。
Ankerl也提出了自己的公式:
tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)
其中:
這兩種算法都工作得很好的詞的總數,結果往往一致。你知道有什麼辦法可以做得更好嗎?
你有權訪問佈局信息(標題,中斷,字體大小和樣式...)嗎? – 2013-03-13 18:20:41