2012-08-09 141 views
0

的具體信息我一直在編程,整天想實現我的目標。起初,我嘗試使用正則表達式(正則表達式),但它接合起來太複雜和無用,儘管它在一定程度上實現了我的目標。充分利用HTML源

這是鏈接到該網站我的工作:

http://thewarezscene.org/forums/memberlist.php?start=20  

如果您查看網頁的源代碼(該網站似乎是下降的時刻),你會發現這個rec​​uring鏈接標籤:

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a> 

每個新頁面都有一個註冊到該網站的每個人的列表。遞增20。開始= 20,開始= 40,開始= 60。我知道如何從HTML頁面獲取所有元素,但只有獲得特定鏈接格式的鏈接文本的最佳解決方案是什麼?

回答

0

使用HTML解析器像HTML Agility Pack解析HTML。

什麼是Html Agility Pack(HAP)?

這是一個敏捷的HTML解析器,它構建了一個讀/寫DOM並支持普通的XPATH或XSLT(實際上,您不需要理解XPATH或XSLT就可以使用它,不用擔心)。它是一個.NET代碼庫,允許您解析「離開網頁」的HTML文件。解析器對「真實世界」格式錯誤的HTML非常寬容。對象模型與提出System.Xml非常相似,但是對於HTML文檔(或流)。

正則表達式不適合解析HTML,如this answer中所示。

+0

俄德我如何獲得HTML敏捷性包?它是否已經與.NET框架?還是它是一個我不得不從某處下載的文件? – 2012-08-09 18:25:06

+0

@ 43.52.4D。 - 我確實提供了一個鏈接。它有一個下載。即使我沒有,你可以谷歌。請付出一點努力。 – Oded 2012-08-09 18:27:07

+0

我做了Google,我只是想確認一下。我自己學習編程14,需要付出努力。 – 2012-08-09 18:54:57

0

如果你想獲得其中參數「開始」的所有元素存在於HREF

$("a[href*='start=']")