是否可以編寫生成正則表達式或基於某些HTML文檔解析鏈接的XPath的代碼?自學正則表達式或xpath查詢?
我想要的是解析一個頁面的一些鏈接。我唯一知道的是,網頁上的大多數鏈接都是這些鏈接。
舉個簡單的例子,帶一個谷歌搜索引擎結果頁面,例如this。大多數的鏈接是從搜索結果中,看起來是這樣的:
<h3 class="r"><a onmousedown="return rwt(this,'','','res','1','AFQjCNERidL9Hb6OvGW93_Y6MRj3aTdMVA','')" class="l" href="http://stackoverflow.com/"><em>Stack Overflow</em></a></h3>
是否可以寫學習本,並承認這一點,並能夠解析各個環節,即便谷歌改變了他們的演示代碼?
我正在考慮解析出所有鏈接,並在每個標籤之前和之後查找X字符,然後從中找出答案。
我知道這也可以用XPath完成,但問題仍然是一樣的。我可以解析這些內容並生成一個有效的XPath來查找serp鏈接嗎?
呃...不會鏈接永遠是href =「東西」? – dss539 2009-05-27 21:08:38