我需要我可以找到的幾種語言處理操作中最詳盡的英語單詞列表,但我無法在互聯網上找到具有足夠好質量的任何內容。自然英語單詞
英語裏有1,000,000個單詞,包括外文和/或技術詞彙。
你能否建議這樣一個來源(或接近500k字),可以從互聯網下載,也許有點分類?你使用什麼輸入語言處理應用程序?
我需要我可以找到的幾種語言處理操作中最詳盡的英語單詞列表,但我無法在互聯網上找到具有足夠好質量的任何內容。自然英語單詞
英語裏有1,000,000個單詞,包括外文和/或技術詞彙。
你能否建議這樣一個來源(或接近500k字),可以從互聯網下載,也許有點分類?你使用什麼輸入語言處理應用程序?
Kevin's wordlists是我知道的最好的單詞列表。
WordNet是更好,如果你想知道的事情是名詞,動詞等,同義詞等
誰讓你有百萬字?根據Wikipedia,牛津英語詞典只有600,000。 OED試圖包含所有使用的技術和俚語術語。
我在普渡大學進行了受控/自然英語和語言領域知識處理方面的研究。
我會看看這個項目:http://attempto.ifi.uzh.ch/site/description/這是一個項目,以幫助建立一個受控制的自然英語。
您可以下載他們的整個單詞詞典:http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip它有約100,000個自然英語單詞。
您也可以爲特定領域的單詞提供您自己的詞典,這就是我們在我們的研究中所做的。他們提供網絡服務來解析和格式化自然英文文本。
`The "million word" hoax rolls along」,我看;-)
如何讓你的單詞列表更長:給定一個名詞,添加以下任意給它的:無,僞,半,-arific, - 極客, ...; mutatis mutandis爲動詞等
嘗試直接維基百科的提取物:。http://dbpedia.org
有沒有按照這個 - oxford太多基地字(171k這是我記得在大學裏CS程序被告知 但是,如果包括所有形式的words-的則大幅上升。
這就是說,爲什麼不自己做一個?找一個維基百科的轉儲和分析它,並建立了一套你遇到的所有令牌。
期待拼寫錯誤雖然 - 就像所有的事情一樣rowd-sources將會出現錯誤。
如果你的字典有一百萬字,你可以打賭,普通單詞的拼寫錯誤會被誤認爲是一些不起眼的百萬字。這可能會影響這種大型字典的用處。 – 2009-01-16 14:42:17
@Germstorm:你從哪裏得到這個100萬的號碼?你有具體的參考,還是這個傳聞? – 2009-01-28 00:15:31
我剛剛在某處聽到它,我無法驗證它 – Germstorm 2009-06-12 19:26:07