例如,我有這個網址:www.pawgoes.nl
。如果我查看網頁來源,那麼我可以看到該網站的版本爲XHTML 1.0 Transitional
。從URL獲得html版本
我的問題是,.NET中是否有一個庫或標準功能,以給定URL的編程方式提供html版本?因爲我有一個巨大的URL列表,我需要知道所有這些的HTML版本提前
例如,我有這個網址:www.pawgoes.nl
。如果我查看網頁來源,那麼我可以看到該網站的版本爲XHTML 1.0 Transitional
。從URL獲得html版本
我的問題是,.NET中是否有一個庫或標準功能,以給定URL的編程方式提供html版本?因爲我有一個巨大的URL列表,我需要知道所有這些的HTML版本提前
通過下面的代碼示例,您將獲得文檔類型,從中可以提取版本。
HtmlWeb webGet = new HtmlWeb();
HtmlDocument document = webGet.Load("http://www.pawgoes.nl/");
string doctype = document.DocumentNode.SelectSingleNode("//comment()").InnerText;
你能否提供一些建議,我如何從文檔類型中提取出版本?在文檔類型中是否有任何模式,所以我可以做一個'substring'或者一些東西。 'http:// www.pawgoes.nl /'的文檔類型是'<!DOCTYPE html PUBLIC \「 - // W3C // DTD XHTML 1.0 Transitional // EN \」\「http://www.w3.org /TR/xhtml1/DTD/xhtml1-transitional.dtd \「>' – Ozkan
您可以嘗試使用indexof找到」html「,並從中提取版本號,唯一的例外是html5文檔類型。 – Erwin
該文檔可能有一個XHTML 1.0 Transitional文檔類型,但它是無效的。在瞭解Doctype的使用情況(除非您正在編輯該特定文檔)方面幾乎沒有什麼實用價值。 – Quentin