2012-05-23 59 views
0

例如,我有這個網址:www.pawgoes.nl。如果我查看網頁來源,那麼我可以看到該網站的版本爲XHTML 1.0 Transitional從URL獲得html版本

我的問題是,.NET中是否有一個庫或標準功能,以給定URL的編程方式提供html版本?因爲我有一個巨大的URL列表,我需要知道所有這些的HTML版本提前

+0

該文檔可能有一個XHTML 1.0 Transitional文檔類型,但它是無效的。在瞭解Doctype的使用情況(除非您正在編輯該特定文檔)方面幾乎沒有什麼實用價值。 – Quentin

回答

1

通過下面的代碼示例,您將獲得文檔類型,從中可以提取版本。

HtmlWeb webGet = new HtmlWeb(); 
HtmlDocument document = webGet.Load("http://www.pawgoes.nl/"); 
string doctype = document.DocumentNode.SelectSingleNode("//comment()").InnerText; 
+0

你能否提供一些建議,我如何從文檔類型中提取出版本?在文檔類型中是否有任何模式,所以我可以做一個'substring'或者一些東西。 'http:// www.pawgoes.nl /'的文檔類型是'<!DOCTYPE html PUBLIC \「 - // W3C // DTD XHTML 1.0 Transitional // EN \」\「http://www.w3.org /TR/xhtml1/DTD/xhtml1-transitional.dtd \「>' – Ozkan

+0

您可以嘗試使用indexof找到」html「,並從中提取版本號,唯一的例外是html5文檔類型。 – Erwin