我正在研究這個項目,它要求我對從網頁獲得的文本進行一些文本處理。 現在,實現這一目標的第一步就是找到一個解析器,該解析器將提取所需的正文文本,而忽略冗餘信息。我不知道我會怎麼做,因爲我對編程非常陌生。我真的很感謝任何幫助,我可以得到。 在此先感謝HTML解析器將文本從身體中提取出來(在java中)
0
A
回答
1
我只是做,現在使用HTMLParser的,可在SourceForge: http://sourceforge.net/projects/htmlparser/
似乎很容易和簡單,但既然你自稱是在這個新的,這裏是源代碼的例子: http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm
3
我發現這個html解析器非常有用。它還提供了一個示例。 http://jericho.htmlparser.net/docs/index.html
相關問題
- 1. 從Python解析HTML中提取文本
- 2. 從XML文件中提取文本節點在JAVA中使用SAX解析器
- 3. 如何提取從Twig中的HTML解析的純文本?
- 4. HTML解析和提取文本
- 5. 從HTML中提取文本
- 6. 從html中提取文本?
- 7. 從HTML中提取文本
- 8. 從輸出解析樹中提取文本
- 9. 的Java:解析HTML文件,並提取文本
- 10. 在PHP中解析HTML並提取值
- 11. 從html解析器中獲取元素
- 12. HTML解析器獲取鏈接文本
- 13. 使用提取器來解析文本文件
- 14. grep來提取出從HTML
- 15. 用DOM解析器提取文本
- 16. 如何從HTML中解析文本
- 17. 使用PHP將文本從PDF中提取出來
- 18. 提取文本 - 簡單的HTML DOM解析器
- 19. c#:從html解析文本
- 20. 從xml解析的html標籤之間提取文本
- 21. 從html文件中提取文本python
- 22. 從html文件中提取文本
- 23. Python:從html文件中獲取和解析文本
- 24. HTML解析Java中
- 25. 解析HTML Java中
- 26. 如何在java中使用jsoup提取/解析這個html表?
- 27. 在Java中解析HTML以提取信息
- 28. 如何僅從HTML文檔中提取粗體文本?
- 29. 如何從ckeditor生成html中提取純文本在JAVA
- 30. Java來HTML解析器/狀態機
選擇http://stackoverflow.com/search?q=java+html+parser – 2010-04-16 14:57:20