讓我們想象一下,我們可以建立一個統計表,每個單詞在一些英文文本或書本中使用多少。我們可以收集圖書館中每個文本/書籍的統計數據。 將這些統計數據與對方進行比較的最簡單方法是什麼?我們如何找到統計相似的詞典的文本羣/文本羣?英文文本詞彙比較
Q
英文文本詞彙比較
1
A
回答
1
首先,您需要對詞典進行規格化(即確保兩個詞典都有相同的詞彙表)。
然後,您可以使用類似度量標準,如Hellenger distance或cosine similarity來比較兩個詞典。
查看機器學習包如Weka也是一個好主意。
This book是機器學習的優秀資源,您可能會覺得它很有用。
0
我會先看看Lucene(http://lucene.apache.org/java/docs/index.html)必須提供什麼。之後,您將需要使用機器學習方法並查看http://en.wikipedia.org/wiki/Information_retrieval。
0
您可能會考慮Kullback Leibler距離。僅供參考,請參見封面和托馬斯的18頁:
相關問題
- 1. Python和R詞彙比較
- 2. 文本比較
- 3. 詞彙組匹配文本
- 4. 檢測文本中的英文單詞
- 5. XmlPullParser文本比較
- 6. SSIS比較文本文件
- 7. 文本文件比較
- 8. 比較文本和文本文件
- 9. 英文動詞inflector
- 10. 比較XML文件和文本文件
- 11. 創建詞彙辭典文本挖掘
- 12. 多文本比較算法
- 13. 比較兩個文本框
- 14. 文本框比較值
- 15. 文本比較算法
- 16. bash腳本比較文件
- 17. 比較按鈕文本
- 18. 的UnicodeDecodeError文本比較
- 19. 純文本比較工具
- 20. 版本比較JSON文檔
- 21. 比較Unix中的文本
- 22. 比較兩個文本
- 23. 比較Android按鈕文本
- 24. 比較字符串文本
- 25. 比較爬頁面文本
- 26. 比較兩個文本php
- 27. DUnit比較兩個文本文件並顯示比較
- 28. 比較Unix中兩個文本文件的比較函數
- 29. 如何比較英文環境中的中文字符串?
- 30. 32位英特爾彙編比較和跳轉
我已經採取了通過這本書簡單的介紹一下,但我沒有找到它側重於詞彙的算法。我錯了嗎? – 2012-05-18 19:15:23