2011-03-14 45 views
0

我需要計算文檔內所有條款的頻率。我怎樣才能做到這一點 ? 我不要求密碼。我只是要求指導。其實我正在做一些文件和查詢之間的相似度計算。我已經爲查詢計算了術語頻率。 但我不知道如何計算文件內每個單詞的tern頻率。任何人都可以引導我?感謝您的關注。需要統計文檔中每個條款的頻率

+0

你能指定文檔如何表示嗎? – ThomasRS 2011-03-14 15:56:53

+0

您是否在發佈之前嘗試搜索?這被問**很多**。 – 2011-03-14 15:59:50

+0

如果你正在尋找術語頻率,[這是一個python程序](https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py)將會計算出它。你可能想看看這個。 – slhck 2011-03-14 16:00:56

回答

1

您可以使用HashMap,其中key是您的術語和值 - 它的頻率。每次你看到你的期限,你都會增加價值。文件完成後,你有你的號碼。

1

是,使用HashMap的保存價值,並要經過文件,你可以使用一個Scanner

0

在Java中你一定要留在HashMap<String, Integer>。術語將是HashMap鍵和術語頻率值。