4
這只是一個普遍的問題。目前我正在使用正則表達式來進行網頁抓取。但是我認爲找出正則表達式有時候太困難了,所以我在想XSL/XPath是C#中正則表達式的替代方案嗎?網頁(html)使用C#刮臉
此外,我想知道是否有更高級的技術用於網頁抓取,而不是上面列出的兩個。謝謝。
這只是一個普遍的問題。目前我正在使用正則表達式來進行網頁抓取。但是我認爲找出正則表達式有時候太困難了,所以我在想XSL/XPath是C#中正則表達式的替代方案嗎?網頁(html)使用C#刮臉
此外,我想知道是否有更高級的技術用於網頁抓取,而不是上面列出的兩個。謝謝。
你可以看看SgmlReader或Html Agility Pack,它們是.NET的HTML解析庫。
xsl/xpath要求頁面是XHTML 1.0,並非所有的html都符合xml解析器容易使用的東西 – rene 2011-02-16 18:23:47
@rene:這是乾淨的嗎?如果網頁是XHTML1.0,Xpath可以在C#中使用,如果它不是XHTML1.0,那麼只需要尋找其他的選擇? – Kevin 2011-02-16 18:38:17