如何自動分類字典中的單詞？

-1

我有一個很大的字典文件，dic.txt（其實際是SOWPODS），每行一個英文單詞。我想將這個文件自動分割成3個不同的文件easy_dic.txt（我們使用的每天最常用的詞 - 16歲的詞彙），medium_dic.txt（常用但不爲人知的詞，在easy_dic.txt中找到的30歲減去的單詞），hard_dic.txt（只有專業Scrabble玩家纔會知道的非常深奧的單詞）。最簡單的方法是什麼（您可以使用互聯網上的任何資源）來完成此任務？如何自動分類字典中的單詞？

來源

2011-04-24 pathikrit

而不是開放式。只有字典文件，這是不可能的。 – Oded 2011-04-24 08:00:51

好吧，顯然你可以使用互聯網上的任何資源。我想知道是否有任何可用的API。我不認爲這個問題是開放式的，很清楚需要做些什麼。 – pathikrit 2011-04-24 17:23:48

@Oded可能你是對的，但問題很有意思，並且有很多有用的結果。當試圖製作一個模塊來生成拼寫錯誤的單詞的建議時，我遇到了同樣的問題。通過建議最常用的詞（在一定的編輯距離內），軟件的猜測能力增加了很多。 – 2011-04-25 03:44:38

谷歌有正確的工具:)，並共享其數據庫！

的Ngram viewer是檢查和比較文學，雜誌詞的出現頻率的工具等

您可以下載數據庫，並從here

HTH訓練你的字典！

順便說一句該工具是非常有趣的使用和發現單詞的出生和失蹤日期。

來源

2011-04-25 03:22:10

若要添加到此答案，您可能需要查看該頁面上的unigrams列表。對於臨界點，您可以將您認爲易於理解，邊界線中等和邊界模糊的內容，找到這些詞的計數，然後通過對這些計數進行閾值處理來製作列表 – 2011-04-27 04:46:57

採取一些書（優選從你三個類別），在一個計算機可讀形式是可用的。
爲這些書中的所有單詞創建直方圖。
合併每個類別中所有書籍的直方圖。
處理字典時，請檢查哪個類別的直方圖中單詞的計數最高，並將該單詞放入此類別中。

除了最後一步之外，您還可以簡單地處理直方圖，並從所有直方圖中刪除單詞，但點擊次數最高的單詞除外。然後，您已經有一個單詞列表，而不使用外部字典文件。

來源

2011-04-24 08:13:06 ThiefMaster

下載維基百科轉儲，用一些Lingpipe工具（最佳數據結構）學習詞頻。檢查詞典頻率分佈中的單詞，然後將它們分成3組。

來源

2011-04-25 09:51:19 yura

如何自動分類字典中的單詞？

回答

相關問題