查找文本關鍵字的算法

給定一組文本（可能是書籍，文章，文檔等），如何爲每個文本找到相關關鍵字？常識表明到：查找文本關鍵字的算法

分裂的話
排除常用詞（也稱爲停的話，如「一，於，在」）
數字頻率
給予對每個單詞進行評分，並考慮文件和其他單據中每個單詞的頻率，文件的單詞數量和所有文件的單詞總數。

現在的問題是：這是一個很好的公式來做到這一點？

2013-03-13 Attilio

我開發了一個。

對於每個字計算該比率：

(frequency of word in this text) * (total number of words in all texts) 
----------------------------------------------------------------------- 
    (number of words in this text) * (frequency of word in all texts)

關鍵字是那些單詞，其比例爲最高20％（對於本doucument）。

Ankerl也提出了自己的公式：

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

其中：

CURVAL：得分字是如何經常在將要分析的文本
curWords存在：總待分析文本中的單詞數量
allVal：得分單詞在索引數據集中出現的頻率
allWords：被索引的數據集

這兩種算法都工作得很好的詞的總數，結果往往一致。你知道有什麼辦法可以做得更好嗎？

來源

2013-03-13 18:13:48 Attilio

你有權訪問佈局信息（標題，中斷，字體大小和樣式...）嗎？ – 2013-03-13 18:20:41

查找文本關鍵字的算法

回答

相關問題