我不得不處理在HTML裏面不良HTML和HTML標籤屬性:這不適合Html解析器嗎?
<p class="<sometag attr="something"></sometag>">
<a href="<someothertag></someothertag">Link</a>
</p>
我試着用HtmlAgilityPack解析出的內容,但是當你在上面的代碼加載到的HTMLDocument,則OuterHtml
輸出:
<p class="<sometag attr=" something"="">">
<a href="<someothertag></someothertag">Link</a>
</p>
的p
標籤格式錯誤,進而a
標籤的href
屬性裏面的someothertag
不被識別爲一個節點(雖然它是真正的文本屬性裏面,我想它是RECO gnized作爲標籤)。
有什麼我可以用來幫助我解析這樣的壞Html嗎?
恐怕你不能真的解析這樣的事情。至少不是以你想要的方式工作的方式。爲什麼你需要解析這樣可怕的事情? – svick
我甚至想知道誰/會產生這樣的事情嗎? – ChaosPandion
這是一個我需要處理的自定義模板語法。 – Omar