2012-11-17 83 views
-3

有人能幫我從HTML頁面中的元素?我不想使用圖書館,我只想要一個關於如何使用正確的正則表達式和這樣兩個指針。我有點卡住這一點,所有的幫助表示讚賞。獲取HTML/XML元素和值在Java

+2

因爲他提到的正則表達式,有人打算無論如何要做到這一點。 OP,[這裏](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)你走。 – Perception

回答

1

你必須先不管你是在談論HTML或XML來決定。

如果你的文本是一個有效的XML文檔,那麼你可以使用JAXP解析文檔和訪問元素/屬性編程(正則表達式中沒有必要)。

如果您的文本是不是有效的XML文檔,則沒有組正則表達式是以往任何時候都爲你的100%情況下的工作;你能做的最好是使用JDK內置的HTML解析器,將搖擺框架的一部分提供。

0

JDK包含一個基本HTML parser。它不是很健壯,但你確實指定了你「不想使用庫」。所以......我想你會把自己擊倒嗎?