Q
分詞統計方法
6
A
回答
4
我認爲slideshow由彼得·諾維格和塞巴斯蒂安的Thurn是一個很好的點開始。它展示了谷歌所做的真實世界的工作。
3
這個問題在很多亞洲語言中沒有明確地對單詞邊界進行編碼(例如中文,泰文)的分詞完全是類似的。如果您想要解決問題的背景,我建議您查看Google學術搜索獲取當前的中文分詞方法。
您可以先看看一些較舊的方法: Sproat,Richard和Thomas Emerson。第一個國際中文分詞bakeoff(http://www.sighan.org/bakeoff2003/paper.pdf)
如果你想要一個現成的解決方案,我建議LingPipe的教程(http:// alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html)。我已將它用於未分段的英文文本,並取得了良好的效果。我在幾百萬字的newswire文字上訓練了潛在的字符語言模型,但我懷疑爲了這個任務,使用任何相對正常的英文文本的語料庫,您將獲得合理的性能。
他們使用拼寫校正系統來推薦候選人的「更正」(其中候選更正與輸入相同,但插入空格)。他們的拼寫校正器基於Levenshtein編輯距離;他們只是不允許替換和換位,並將可允許的插入限制在一個空間中。
相關問題
- 1. tsearch2單詞統計
- 2. RavenDB LuceneQuery統計方法
- 3. 代碼詞彙統計
- 4. 用SQL Server統計直方圖估計範圍謂詞
- 5. 尋求指向系統分析和設計的方法和方法
- 6. 設計徽章分配系統框架的最佳方法
- 7. 在MySQL中執行統計分析的最佳方法
- 8. 分頁和統計文檔的高效方法
- 9. 通過統計得分實現更好的方法
- 10. 統計獨特詞彙並在Python中創建詞典和計數的詞典
- 11. 使用word interp統計單詞doc中的分頁符
- 12. 如何在熊貓數據框中按單詞分組統計
- 13. Python - 統計分佈
- 14. python統計分析
- 15. 如何統計有多少單詞符合?更智能的方法?
- 16. 詞法分析
- 17. 詞法分析
- 18. 詞法分析器在方案
- 19. 從傳統服務WCF:設計方法
- 20. 什麼是統計API調用方法?
- 21. 統一數據API設計方法
- 22. JProfiler的不給方法級別統計
- 23. 如何統計單詞中的字母?
- 24. 查詢統計單詞SQLite 3
- 25. 使用XSLT統計XML中的詞
- 26. 統計每個單詞的頻率
- 27. 統計lucene索引中的詞頻
- 28. 如何從列表中統計單詞?
- 29. 如何統計文檔中的單詞
- 30. 統計單詞中的相同字母
謝謝,好的一點開始。我在Peter Norvig的網站上找到了很多有用的代碼片段。 – mishadoff 2012-03-20 13:36:46
幻燈片出於某種原因已被取消。 – 2013-03-01 09:06:26