回答
您可以使用正則表達式。 如果你的HTML是有效的XML - 您可以使用XML解析器
http://stackoverflow.com/questions/1732348/regex-match-open-tags- except-xhtml-self-contained-tags – romaintaz 2011-03-21 07:58:22
如果他的HTML是有效的XML,那麼它實際上是XHTML。 – 2011-03-21 08:01:12
Java配套用類似的方法對DOM在JavaScript中的XML解析器:
DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();
文檔構建可以採取許多不同的輸入(輸入流,原始html字符串等)。
http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html
的網絡ネ解析器也不錯,如果你需要更多。
您可以編寫自己的util
方法來提取標籤。
檢查<
和/>
或>
以獲取完整標籤並將這些標籤寫入另一個文件。
加油!不時出現錯字並沒有那麼糟糕,但前6個字中有4個錯誤的單詞? – 2011-03-21 08:07:50
你能解釋清楚什麼是錯的嗎 – developer 2011-03-21 08:12:35
在你編輯之前,你有「你可以寫你的贏了」。你(正確地)用「你」('雖然它應該被大寫),「你」用「你的」和「用戶名」用「util」替換「你」。 「贏」應該仍然是「自己」。關於您的內容:我不會建議嘗試從頭開始實施HTML解析器。這是一個棘手的問題,其他人已經(大部分)解決了這個問題。 – 2011-03-21 08:15:18
我在一個項目中使用了HTMLParser,對此非常滿意。
編輯:如果您檢查樣本頁面,分析器樣本幾乎可以滿足您的要求。
- 1. 使用sed提取HTML標記數據
- 2. 使用Java從標記中提取URL
- 3. 使用java從html標記中提取內容
- 4. 提取一個標記出從HTML源(使用Java)
- 5. 如何提取html標記標記
- 6. 如何使用XPath提取文本而不使用Html標記?
- 7. PHP - 使用HTML標記提交表單
- 8. DSpace,在提示標記中使用html
- 9. 在HTML標記中使用Java變量
- 10. 使用Java解析HTML標記
- 11. 從字符串中提取HTML標記
- 12. 從字符串中提取HTML標記
- 13. Powershell提取本地html標記
- 14. 從HTML標記中提取文本?
- 15. 如何提取從HTML標記文本
- 16. 提取HTML標記之間的文本
- 17. 提取HTML標記屬性和值
- 18. BeautifulSoup:提取HTML標記屬性
- 19. PHP提取HTML標記和內容
- 20. 使用Perl解析/提取HTML標記的內部?
- 21. 使用Xpath提取html標記的完整內容
- 22. 使用JavaScript從HTML選擇標記中提取值
- 23. 使用html標記從字符串中提取子字符串
- 24. 如何使用PHP提取HTML輸入標記的值
- 25. Python從HTML標記中使用美麗的湯提取數字
- 26. 使用python湯提取動態HTML標記之間的文本
- 27. 僅使用Javascript從HTML字符串中提取元標記
- 28. 如何提取XML標記值而不使用java中的標記名?
- 29. 美麗的湯:提取標記和非標記HTML文本
- 30. 使用Java提取HTML片段
參考此鏈接:http://stackoverflow.com/questions/2168610/which-html-parser-is-best – rkg 2011-03-21 08:02:53