我試圖找出一種方法去除數據庫中的記錄中的所有html標籤,然後創建xml?如何從數據庫記錄中除去所有的html,而不是創建一個xml文件?
任何想法?
建在asp.net 2.0與SQL Server
我試圖找出一種方法去除數據庫中的記錄中的所有html標籤,然後創建xml?如何從數據庫記錄中除去所有的html,而不是創建一個xml文件?
任何想法?
建在asp.net 2.0與SQL Server
檢查這個問題:Using C# regular expressions to remove HTML tags。你是什麼意思創建XML?
那麼,我們需要將我們所有產品的xml feed提供給供應商,他們希望我們去掉所有的html字符。所以我想知道是否有一個簡單的方法來做到這一點? – jrutter 2009-11-15 23:37:17
爲什麼不直接解析網頁,確保你把它變成一個DOM樹,然後只需經過拉出來,你需要適當的數值的元素,也許你認爲必要的任何屬性。
如果你寫的HTML文件,然後他們應該是良好的,所以這會很容易。
我喜歡這個答案。畢竟HTML是一些XML的軟件,你需要實現DOM對象和解析器。您基本上需要將HTML標記轉換爲XML標記,因此在解析它時,可以用XML標記替換HTML標記。 – DarthVader 2009-11-16 01:57:44
不要與數據庫或SQL剝離HTML。相反,用刮刀在應用程序代碼的最後一英里剝去它。
谷歌這樣的: 「HTML Scraper」。 HTML屏幕抓取工具讀取HTML內容並輸出內容,而不是HTML。或者,也可以使用Stack Overflow:「Screen-scraping HTML」。
不要告訴他,google一下(即使多數民衆贊成什麼,他應該做的),點他在計算器爲直這裏;)http://stackoverflow.com/search?q=html+scraper – voyager 2009-11-16 02:02:08
沒有這些數據結構的真正的知識,很難給你建議。 – voyager 2009-11-15 23:45:00
你能找到解決方案嗎,Jrutter?也許upvote或選擇一個答案是正確的? – 2009-11-27 15:59:46