目前我正在學習正則表達式,還有很多我不明白的東西。正則表達式可選組不能正常工作
我有一張桌子的網站,我想要提取物品。其中一列可以包含固定值(在本例中爲「foo」)或不包含任何內容,其他列始終包含一些數據。提取它們的效果很好,但特殊欄中的可選內容不適用。因此,我使用像
<a id=x .*?>(.*?)</a>.*?<a id=y .*?>(.*?)</a>
我的實際問題的一種表達是最終的表達的以下部分
... .*?(foo)?.*? ...
應實現與其它小區之間存在與內容FOO細胞,所述細胞能錯過並且只應在其返回時才返回。我究竟做錯了什麼?一些基本的理解?
學習很棒,但正則表達式不是將數據從html中拉出的正確工具。 –
什麼是從網站提取數據的好方法?正則表達式似乎是非常靈活和有趣:) – Gnietschow
[HTMLAgilityPack](http://htmlagilitypack.codeplex.com/) –