我正在使用Python將url解析爲單詞。我取得了一些成功,但我試圖減少歧義。例如,我給出以下網址包含英文單詞(包括頻率)的列表是否可用?
"abbeycarsuk.com"
,我的算法輸出:
['abbey','car','suk'],['abbey','cars','uk']
顯然,第二解析是正確的,但第一個在技術上也同樣正確的是(顯然「 suk'是我正在使用的詞典中的一個詞)。
什麼會幫助我很多是如果有一個詞表在那裏,也包含每個單詞的頻率時的/人氣。我可以將其應用到我的算法中,然後選擇第二個解析(因爲'uk'顯然比'suk'更普遍)。有誰知道我在哪裏可以找到這樣的清單?我發現wordfrequency.info,但他們收取數據費用,他們提供的免費樣品沒有足夠的文字讓我能夠成功使用它。
另外,我想我可以下載一個大的語料庫(Gutenberg項目?),並自己獲取頻率值,但是如果這樣的數據集已經存在,它會讓我的生活變得更容易。
你可以使用免費列表,在你提到的網站[鏈接這裏](http://www.wordfrequency.info/free。asp),然後如果這個單詞不在這個列表中,那麼就假設這個頻率非常低。這不夠嗎? – will