我想知道什麼是定義字典來計算特定網站的相關性的最佳方法。至少包含單詞的詞典似乎是衡量通過鏈接找到的新網站的相關性的重要方法(例如,如果一個網站被鏈接到,但它不包含關於足球的任何詞,那麼它可能與我的足球爬行者無關)。如何定義與主題相關的抓取工具字典?
我來到了以下的想法,但他們都有重大缺陷:
- 手工編寫一本字典 - >你可能會忘記很多的話,這是非常耗時
- 拿從第一個網站的詞作爲詞典最重要的詞 - >很多詞可能會丟失
- 把所有網站上最重要的單詞作爲字典中的條目,並通過相關性加權(例如,只有相關的網站0.4會對詞典沒有如此大的影響,因爲它是一個相關的網站0.8) - >似乎很合適並可能導致意想不到的結果
最後一種方法似乎是最好的,但也許有更好,更常見的方法?