2012-12-30 109 views
3

我有一個從95個文檔中取得的關鍵字列表。我想列出它們的重要性,但我只有關鍵字出現的文檔數量和所有文檔中關鍵字的最大頻率。我正在尋找一個可能有幫助的排名公式。目前我正在使用IDF,但我想知道是否有更好的公式。關鍵字排名

回答

1

TF-IDF絕對是一個很好的基礎和易於實現。

在您的文檔中添加其他偏見,例如您的條款的位置也很常見,在文檔開頭出現的術語或更好的名稱往往比中間或末尾出現的更相關。

但是,您必須記住,選擇算法及其偏差還取決於文檔的性質。例如,長篇文件(如研究論文或書籍)需要位置偏差,但不一定是新聞文章。 「IDF」措施也是如此,它必須在大量語料庫上進行計算,這些文檔的內容類型與您的文檔類似。如果您的文檔是關於半導體的研究論文,則您不希望在「電視和電影」語料庫上計算相關度分數。

我的兩分錢。