我需要從非常糟糕的Html中提取文本。InnerText = InnerHtml - 如何使用HtmlAgilityPack提取可讀文本
我試圖做到這一點使用vb.net
和HtmlAgilityPack
,我需要解析的標籤具有的innerText = innerHTML的無一不:
Name:<!--b>=</b--> Albert E<!--span-->instein s<!--i>Y</i-->ection: 3 room: -
雖然調試運行,我可以使用閱讀「HTML查看器「:它顯示:
Name: Albert Einstein section: 3 room: -
我怎樣才能把它變成一個字符串變量?
編輯:
我用這個代碼來獲取節點:如果您注意到這個爛攤子實際上只是HTML註釋
你可以試試嗎? http://stackoverflow.com/questions/3442394/jquery-using-text-to-retrieve-only-text-not-nested-in-child-tags我不知道如果這項工作在不良的HTML ...嘗試 –
你需要發佈更多的html我認爲 - 它看起來並不那麼糟 –
@ Mr.Developer你能解釋一下嗎?我理解邏輯,但我需要更多的幫助來嘗試。在此先感謝 – genespos