我有一個很大的字典文件,dic.txt(其實際是SOWPODS),每行一個英文單詞。我想將這個文件自動分割成3個不同的文件easy_dic.txt(我們使用的每天最常用的詞 - 16歲的詞彙),medium_dic.txt(常用但不爲人知的詞,在easy_dic.txt中找到的30歲減去的單詞),hard_dic.txt(只有專業Scrabble玩家纔會知道的非常深奧的單詞)。最簡單的方法是什麼(您可以使用互聯網上的任何資源)來完成此任務?如何自動分類字典中的單詞?
-1
A
回答
4
谷歌有正確的工具:),並共享其數據庫!
的Ngram viewer是檢查和比較文學,雜誌詞的出現頻率的工具等
您可以下載數據庫,並從here
HTH訓練你的字典!
順便說一句該工具是非常有趣的使用和發現單詞的出生和失蹤日期。
+0
若要添加到此答案,您可能需要查看該頁面上的unigrams列表。對於臨界點,您可以將您認爲易於理解,邊界線中等和邊界模糊的內容,找到這些詞的計數,然後通過對這些計數進行閾值處理來製作列表 – 2011-04-27 04:46:57
0
- 採取一些書(優選從你三個類別),在一個計算機可讀形式是可用的。
- 爲這些書中的所有單詞創建直方圖。
- 合併每個類別中所有書籍的直方圖。
- 處理字典時,請檢查哪個類別的直方圖中單詞的計數最高,並將該單詞放入此類別中。
除了最後一步之外,您還可以簡單地處理直方圖,並從所有直方圖中刪除單詞,但點擊次數最高的單詞除外。然後,您已經有一個單詞列表,而不使用外部字典文件。
0
下載維基百科轉儲,用一些Lingpipe工具(最佳數據結構)學習詞頻。檢查詞典頻率分佈中的單詞,然後將它們分成3組。
相關問題
- 1. 分類詞典
- 2. 其中類似字典裏的單詞
- 3. C#詞典到詞典自動翻譯
- 4. 如何填充字典字典詞典?
- 5. PyEnchant將字典中的單詞「糾正」爲不在字典中的單詞
- 6. 使用字典類創建單詞樹
- 7. 如何模糊搜索字典單詞?
- 8. 更改詞典詞典中的每個詞典的類型
- 9. Unity C#詞典中的自定義類
- 10. C#詞典中的字典
- 11. Python中的字典詞典!
- 12. 把詞典分成類
- 13. 如何製作JSON字典的詞典?
- 14. Python的 - 名單詞典字典
- 15. 如何用android中的隨機字母創建字典單詞?
- 16. SublimeText自動完成詞典
- 17. 字典詞典
- 18. 字典詞典
- 19. 如何模糊搜索詞典單詞?
- 20. 如何根據詞典的定義從詞典中找出單詞
- 21. 字典GUI中的隨機單詞
- 22. 語音識別,字典中的單詞
- 23. 拆分字典詞典進入
- 24. 如何將給定的文本分解爲字典中的單詞?
- 25. 如何自動大寫C#中每個單詞的首字母?
- 26. 建立來自多個表中的單詞的字典在python
- 27. 如何根據簡單約束在字典中找到單詞?
- 28. 將單詞與字典中的目標單詞進行比較
- 29. 如果單詞的一部分是一個Python字典
- 30. 如何將詞典字典轉換爲Ansible vars文件中的詞典列表?
而不是開放式。只有字典文件,這是不可能的。 – Oded 2011-04-24 08:00:51
好吧,顯然你可以使用互聯網上的任何資源。我想知道是否有任何可用的API。我不認爲這個問題是開放式的,很清楚需要做些什麼。 – pathikrit 2011-04-24 17:23:48
@Oded可能你是對的,但問題很有意思,並且有很多有用的結果。當試圖製作一個模塊來生成拼寫錯誤的單詞的建議時,我遇到了同樣的問題。通過建議最常用的詞(在一定的編輯距離內),軟件的猜測能力增加了很多。 – 2011-04-25 03:44:38