我在尋找基於Java的工具,用於從給定的文章提取相關標籤。 我需要一個基本上可以嘗試的工具,以確定給定文章的主要主題和術語。 感謝您的幫助。Java工具從文章中提取相關的關鍵字/標籤
2
A
回答
1
您可以使用HtmlUnit解析文章的HTML和查詢你有興趣在搜索文檔的部分。然後,您可以應用自己設計的簡單算法來確定標籤/關鍵字。
例如像,split()
上的空白,然後計算每個單詞出現的次數文本。發生得最多的詞(忽略諸如「和」,「」,「如果」等等)是關鍵詞的好選擇。
3
檢查以下關鍵詞/主題提取軟件/工具:
如果你想開發自己的主題檢測系統,你應該採取LDA implementation in mallet(鏈接一看就工作LDA樣品,在槌主頁上的一個不與最新mallet版本中運行)。
相關問題
- 1. 從文本中提取標籤或相關關鍵字
- 2. 從文章中提取關鍵字
- 3. 提取相關標籤/從文本塊關鍵詞
- 4. 從維基百科文章中提取Java關鍵字
- 5. 如何從文本中提取關鍵字(標籤)
- 6. Wordpress查詢相關文章標籤
- 7. java關鍵字提取
- 8. 如何使用DBPedia從內容中提取標籤/關鍵字?
- 9. 需要從Google關鍵字外部工具中提取結果?
- 10. 編程從標題,描述和相關項目獲取標籤(關鍵字)
- 11. 用於從輸入文本中提取關鍵字的Java庫
- 12. 提取.net中句子中關鍵字的工具/ API
- 13. Java - 從視頻中提取關鍵幀
- 14. 如何通過標籤名稱獲取相關文章?
- 15. 根據關鍵字從文檔中提取相關部分或段落
- 16. 從網頁中提取Meta關鍵字?
- 17. 在新的關鍵字規劃工具中做了什麼?在關鍵字列表中添加多個關鍵字來獲取新的關鍵字提示?
- 18. 從文本中提取關鍵句子
- 19. 如何刮取Google關鍵字工具?
- 20. 相關文章WP
- 21. Mysql相關文章
- 22. MongoDB相關文章
- 23. 關鍵字標籤結構
- 24. 元標籤關鍵字
- 25. 相關文章:通過不同表中的標籤獲取記錄
- 26. 相關標籤
- 27. 如何從網頁/ Feed中獲取標籤/關鍵字?
- 28. 如何從Haskell中的文本塊中提取關鍵字
- 29. WordPress的隱藏相關文章如果沒有標籤
- 30. JSON從關鍵字提取值
謝謝,但我感興趣的標記化的一部分。我知道詞幹和它是如何工作的。但是我正在尋找一種算法,它已經可以用於一般情況。 – tomermes