我有以下任務要做:填寫拼寫檢查字典(簡單的txt文件)我需要解析器 哪些應該: - 解析文本文件(或其他類型的文檔),提取 每個單詞,然後創建簡單的文本文件像這樣的單詞列表: adfadf adfasdfa adfasfdasdf adsfadf ... 等 什麼腳本語言和庫你有什麼建議?如果可能,請舉例說明代碼(尤其是提取每個單詞)。謝謝!如何製作文本文件(或其他文件)解析器?
回答
你想要的不是解析器,而只是一個標記器。這可以在與一羣正則表達式的任何語言來完成,但是我不建議用Python NLTK:
>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']
一般來說,幾乎所有的NLP工具包將包括一個標記,所以沒有必要推倒重來;標記化並不困難,但它涉及編寫大量啓發式方法來處理所有例外,如縮寫,首字母縮略詞等。
謝謝!我會以這種方式發掘 – user939536
@ user939536:如果它解決了您的問題,請不要忘記單擊此答案旁邊的複選標記。 –
好吧,它真的幫助!我的aquaintants正在創建這個腳本,謝謝! – user939536
- 1. 如何解析器文件,其中包括其他文件?
- 2. Java - 解析文本文件 - 掃描儀,讀取器或其他東西?
- 3. 如何從其他控制器文件
- 4. 解析巨大的文件外殼(或其他腳本語言)
- 5. 從文本文件解析json對象與其他東西 - Python
- 6. 解析定製的純文本文件
- 7. Grails如何解析文本文件?
- 8. 如何從html文件解析文本
- 9. 如何用c#解析文本文件?
- 10. 拆分文件以解析文本。正則表達式或其他方法
- 11. 解析日誌文件 - C#或其他任何
- 12. 如何簽署文本文件或任何其他xml
- 13. Java解析器文件文本
- 14. VBA文本文件解析
- 15. 解析文本文件
- 16. 解析文本文件perl
- 17. Ruby - 解析文本文件
- 18. 解析文本文件
- 19. 解析php文本文件
- 20. 解析文本文件不
- 21. 從文本文件解析
- 22. 解析文本文件
- 23. 解析文本文件Java
- 24. 解析文本文件
- 25. Groovy解析文本文件
- 26. C#:解析文本文件
- 27. Perl解析文本文件
- 28. 解析文本文件行
- 29. C#解析文本文件
- 30. 解析文本文件
您應該搜索稱爲標記器的東西,它將您的字序列劃分爲可傳遞的標記到字典。在線有很多開源項目。在這裏你可以在java中找到一種算法:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html – 2011-11-10 10:59:46