2013-10-07 70 views
-1

我想解析(竊取)來自HTML頁面的大量信息。很多信息都是封閉的。像:用戶名:1​​.age 2.gender 3.country等這是一個非常大的塊,因此我的正則表達式模式是巨大的。我所有的正則表達式開發工具都有一行模式和文本文本框。這使得開發這些大型模式變得不可能。我想要做什麼來開發大型正則表達式模式還是避免它們?如何在Java中創建大型正則表達式模式?

+5

HTML頁面基本上是DOM結構。所以最好使用DOM解析器而不是正則表達式來獲得所需的信息。 –

+0

我開始不關心有問題的問題和downvotes。這太令人討厭了。無論如何,我得到了我的答案。嘿嘿〜 –

回答

2

HTML頁面基本上是一個有效的DOM結構。所以最好使用DOM解析器而不是正則表達式來獲得所需的信息。您可以探索JSoup:Java HTML解析器。

0

使用爲HTML描述的解析規則從text/html資源生成DOM樹。這些規則一起定義了所謂的HTML解析器。