充分利用HTML源

的具體信息我一直在編程，整天想實現我的目標。起初，我嘗試使用正則表達式（正則表達式），但它接合起來太複雜和無用，儘管它在一定程度上實現了我的目標。充分利用HTML源

這是鏈接到該網站我的工作：

http://thewarezscene.org/forums/memberlist.php?start=20

如果您查看網頁的源代碼（該網站似乎是下降的時刻），你會發現這個recuring鏈接標籤：

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

每個新頁面都有一個註冊到該網站的每個人的列表。遞增20。開始= 20，開始= 40，開始= 60。我知道如何從HTML頁面獲取所有元素，但只有獲得特定鏈接格式的鏈接文本的最佳解決方案是什麼？

來源

2012-08-09 43.52.4D.

使用HTML解析器像HTML Agility Pack解析HTML。

什麼是Html Agility Pack（HAP）？

這是一個敏捷的HTML解析器，它構建了一個讀/寫DOM並支持普通的XPATH或XSLT（實際上，您不需要理解XPATH或XSLT就可以使用它，不用擔心）。它是一個.NET代碼庫，允許您解析「離開網頁」的HTML文件。解析器對「真實世界」格式錯誤的HTML非常寬容。對象模型與提出System.Xml非常相似，但是對於HTML文檔（或流）。

正則表達式不適合解析HTML，如this answer中所示。

來源

2012-08-09 18:15:07 Oded

俄德我如何獲得HTML敏捷性包？它是否已經與.NET框架？還是它是一個我不得不從某處下載的文件？ – 2012-08-09 18:25:06

@ 43.52.4D。 - 我確實提供了一個鏈接。它有一個下載。即使我沒有，你可以谷歌。請付出一點努力。 – Oded 2012-08-09 18:27:07

我做了Google，我只是想確認一下。我自己學習編程14，需要付出努力。 – 2012-08-09 18:54:57

如果你想獲得其中參數「開始」的所有元素存在於HREF

$("a[href*='start=']")

來源

2012-08-09 18:23:08

充分利用HTML源

回答

相關問題