我最新的項目需要的文本文檔之間的相似性測量,並給他們每人一些簡短的標題。有沒有開源的圖書館?或者如果我必須自己創建它,是否有任何有關這些主題的教程?我應該使用哪些工具?開源工具,文本聚類和自動彙總
1
A
回答
2
測量相似之處。您可以使用相同的潛在語義索引。 Here is one paper關於文件的相似之處。
文摘是比較困難的那麼的相似性措施,你必須生產出對人類有意義。 OpenNLP是所有與文本處理相關的基礎知識的好庫。與文本摘要更多的論文是here,可能是一個好的開始。
2
您可以使用edit distance函數之一來測量相似度,如果您執行搜索,則有可用於填充語言的實現,例如C# Leventshtein distance.。
文件之間的相似性也可能是Information Retrieval的問題,是一個流行的庫。 Lucene的使用vector space model確定文檔和查詢之間的相似性,並且還可以使用兩個文檔之間來測量相似性。 Java和C#中還有其他語言的實現以及其他語言的實現。
問題也可以是natural language processing的問題,我使用的庫有NLTK和LingPipe。這些圖書館的目標遠非相似之處,它們有着陡峭的學習曲線,可能是過度殺傷。但是,這些可能有助於提取文檔的簡短標題。你可以用文檔縮放的矢量相似(check vector space model)的較舊的技術開始的文本文檔之間
相關問題
- 1. 的Sql彙總表或動態匯聚
- 2. 自動文字彙總
- 3. Elasticsearch彙總聚合
- 4. 具有混合數據類型的自動數據框彙總
- 5. 聚合與彙總和空記錄
- 6. 詞彙級別相似性詞彙聚工具
- 7. 開源BI工具
- 8. 開源GIS工具
- 9. 類圖彙總
- 10. Matlab聚類工具箱
- 11. 使用開源工具監視匯合的Kafka
- 12. 文本聚類
- 13. 甲骨文RATIO_TO_REPORT和彙總
- 14. MongoDB的匯聚$組和分類
- 15. db4o開發工具和資源?
- 16. 開源圖表和報表工具
- 17. 顯示所有價格文本框(`類= price`)的總和進行分類彙總文本框('ID = subTotal`)
- 18. 用於運行我的自動化測試的開源工具
- 19. 是否有Qt應用程序的開源自動化工具?
- 20. 開源Web應用程序測試自動化工具
- 21. 自定義詞彙表的自動網站工具提示?
- 22. Bigquery中的部分彙總聚合
- 23. 文本分類工具
- 24. 自動工具:makefile文件
- 25. 如何彙總文件中的文本
- 26. 彙總類似字段的Bash腳本
- 27. 開源協作工具
- 28. #Pentaho開源BI工具
- 29. 開源 - EER建模工具
- 30. 開源工具從FlashMovies