2013-03-13 77 views
2

給定一組文本(可能是書籍,文章,文檔等),如何爲每個文本找到相關關鍵字? 常識表明到:查找文本關鍵字的算法

  • 分裂的話
  • 排除常用詞(也稱爲停的話,如「一, 於,在」)
  • 數字頻率
  • 給予對每個單詞進行評分,並考慮文件和其他單據中每個單詞的頻率,文件的單詞數量和所有文件的單詞總數。

現在的問題是:這是一個很好的公式來做到這一點?

回答

5

我開發了一個。

對於每個字計算該比率:

(frequency of word in this text) * (total number of words in all texts) 
----------------------------------------------------------------------- 
    (number of words in this text) * (frequency of word in all texts) 

關鍵字是那些單詞,其比例爲最高20%(對於本doucument)。

Ankerl也提出了自己的公式:

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200) 

其中:

  • CURVAL:得分字是如何經常在將要分析的文本
  • curWords存在:總待分析文本中的單詞數量
  • allVal:得分單詞在索引數據集中出現的頻率
  • allWords:被索引的數據集

這兩種算法都工作得很好的詞的總數,結果往往一致。你知道有什麼辦法可以做得更好嗎?

+0

你有權訪問佈局信息(標題,中斷,字體大小和樣式...)嗎? – 2013-03-13 18:20:41