我使用Html Agility Pack來解析某些html,並且遇到格式不正確的元標記問題。Html Agility Pack正在截斷元標記的值
鑑於此meta標籤:
"<meta name=\"productattributes\" value=\"shop: Baby|category: Category|category: Babies\" r\"us=\"\" exclusives|family:=\"\" strollers|name:=\"\" baby=\"\" trend=\"\" expedition=\"\" elx=\"\" travel=\"\" system=\"\" stroller=\"\" -=\"\" everglade|price:=\"\" 239.99\"=\"\">"
當我打電話:
HtmlNode productAttributes = hap.DocumentNode.SelectSingleNode("//meta[@name='productattributes']");
var productAttributesStr = productAttributes.GetAttributeValue("value", "");
產生的productAttributesStr與在\」 R」被截斷的值結束了:
「店:嬰兒|分類:分類|分類:嬰兒「
我在做什麼錯?
這不是我的html,所以我需要找出一個解決方法來解決它。 html來自toysrus.com。 – rboarman
在嘗試解析錯誤之前,您必須編寫自定義修復例程來糾正錯誤。 (或者讓供應商在源頭修復它)。 – Quentin