2011-04-24 19 views
-1

我有一個很大的字典文件,dic.txt(其實際是SOWPODS),每行一個英文單詞。我想將這個文件自動分割成3個不同的文件easy_dic.txt(我們使用的每天最常用的詞 - 16歲的詞彙),medium_dic.txt(常用但不爲人知的詞,在easy_dic.txt中找到的30歲減去的單詞),hard_dic.txt(只有專業Scrabble玩家纔會知道的非常深奧的單詞)。最簡單的方法是什麼(您可以使用互聯網上的任何資源)來完成此任務?如何自動分類字典中的單詞?

+2

而不是開放式。只有字典文件,這是不可能的。 – Oded 2011-04-24 08:00:51

+0

好吧,顯然你可以使用互聯網上的任何資源。我想知道是否有任何可用的API。我不認爲這個問題是開放式的,很清楚需要做些什麼。 – pathikrit 2011-04-24 17:23:48

+0

@Oded可能你是對的,但問題很有意思,並且有很多有用的結果。當試圖製作一個模塊來生成拼寫錯誤的單詞的建議時,我遇到了同樣的問題。通過建議最常用的詞(在一定的編輯距離內),軟件的猜測能力增加了很多。 – 2011-04-25 03:44:38

回答

4

谷歌有正確的工具:),並共享其數據庫!

Ngram viewer是檢查和比較文學,雜誌詞的出現頻率的工具等

您可以下載數據庫,並從here

HTH訓練你的字典!

順便說一句該工具是非常有趣的使用和發現單詞的出生和失蹤日期。

+0

若要添加到此答案,您可能需要查看該頁面上的unigrams列表。對於臨界點,您可以將您認爲易於理解,邊界線中等和邊界模糊的內容,找到這些詞的計數,然後通過對這些計數進行閾值處理來製作列表 – 2011-04-27 04:46:57

0
  • 採取一些書(優選從你三個類別),在一個計算機可讀形式是可用的。
  • 爲這些書中的所有單詞創建直方圖。
  • 合併每個類別中所有書籍的直方圖。
  • 處理字典時,請檢查哪個類別的直方圖中單詞的計數最高,並將該單詞放入此類別中。

除了最後一步之外,您還可以簡單地處理直方圖,並從所有直方圖中刪除單詞,但點擊次數最高的單詞除外。然後,您已經有一個單詞列表,而不使用外部字典文件。

0

下載維基百科轉儲,用一些Lingpipe工具(最佳數據結構)學習詞頻。檢查詞典頻率分佈中的單詞,然後將它們分成3組。