2012-03-31 45 views
0

基本上我有一個嵌入式CSS和JavaScript的網頁,所以我想要做的只是提取HTML本身,從文本到表格,圖像和什麼不是。C#只提取HTML

到目前爲止,我已經將整個網頁存儲到一個名爲「html」的字符串中,這個頁面的內容就是例如facebook的hompepage,但是你會看到有所有的腳本和其他嵌入的東西,想要有。

HTMLEdit = //webpage I chose to store in here// 
    string html = HTMLEdit.DocumentText; 
    String result = "this i want to only contain the <head>,<body>,<foot>." 

我只是在顯示結果女巫只包含HTML興趣的話,我不希望的JavaScript或CSS或任何其他的東西

我已經看過了敏捷性包,但沒有文件上有網站做到這一點,這是我第一次決定做C#項目,所以如果我沒有意義,請原諒我的無知。

回答

2

看到這個問題 HTML Agility Pack strip tags NOT IN whitelist

也許適應這個問題的答案,拖放鏈接和腳本標籤。

+0

我已經使用正則表達式來刪除標籤或者我可以將標籤推入另一個字符串?即時嘗試避免使用圖書館這 – joshua 2012-03-31 13:58:47

+0

檢查鏈接,解決方案和資源不再在該頁面上可用,所以這是一個不行 – joshua 2012-03-31 14:12:12