2013-07-15 46 views
4

我正在使用Python將url解析爲單詞。我取得了一些成功,但我試圖減少歧義。例如,我給出以下網址包含英文單詞(包括頻率)的列表是否可用?

"abbeycarsuk.com" 

,我的算法輸出:

['abbey','car','suk'],['abbey','cars','uk'] 

顯然,第二解析是正確的,但第一個在技術上也同樣正確的是(顯然「 suk'是我正在使用的詞典中的一個詞)。

什麼會幫助我很多是如果有一個詞表在那裏,也包含每個單詞的頻率時的/人氣。我可以將其應用到我的算法中,然後選擇第二個解析(因爲'uk'顯然比'suk'更普遍)。有誰知道我在哪裏可以找到這樣的清單?我發現wordfrequency.info,但他們收取數據費用,他們提供的免費樣品沒有足夠的文字讓我能夠成功使用它。

另外,我想我可以下載一個大的語料庫(Gutenberg項目?),並自己獲取頻率值,但是如果這樣的數據集已經存在,它會讓我的生活變得更容易。

+1

你可以使用免費列表,在你提到的網站[鏈接這裏](http://www.wordfrequency.info/free。asp),然後如果這個單詞不在這個列表中,那麼就假設這個頻率非常低。這不夠嗎? – will

回答

7

有關於這個主題由彼得·諾維格(研究谷歌的頭),其中包含曾在Python的例子,是很容易理解的書面上的文章。該文章以及示例程序中使用的數據(Google ngram數據的一些摘錄)可以在here找到。如果您居住在美國東部,可以找到一組完整的谷歌航標,用於多種語言here(免費下載)。

2

正如你提到的,「文集」是要搜索的關鍵字。

E.g。這裏的資源是一個不錯的列表:

http://www-nlp.stanford.edu/links/statnlp.html

(向下滾動)

+1

雖然這個鏈接可能回答這個問題,但最好在這裏包含答案的基本部分,並提供參考鏈接。如果鏈接頁面更改,則僅鏈接答案可能會失效。 - [來自評論](/ review/low-quality-posts/18811661) – kilojoules

1

才能在搜尋使用較小的字典第一,小字典將傾向於保持更多的常用詞。那麼如果失敗了,你可以讓它使用你的更有競爭力的字典,包括像'suk'這樣的詞。

然後你就可以忽略詞頻分析,但你會採取一擊,以你的開銷增加另一個小字典。

您可能能夠使用意願的鏈接,他在評論張貼小dictonary

編輯也,你提供的確實有一個免費服務的鏈接,你可以下載a list of the top 5,000 used words

相關問題