2009-11-15 40 views

回答

1

檢查這個問題:Using C# regular expressions to remove HTML tags。你是什​​麼意思創建XML?

+1

那麼,我們需要將我們所有產品的xml feed提供給供應商,他們希望我們去掉所有的html字符。所以我想知道是否有一個簡單的方法來做到這一點? – jrutter 2009-11-15 23:37:17

0

爲什麼不直接解析網頁,確保你把它變成一個DOM樹,然後只需經過拉出來,你需要適當的數值的元素,也許你認爲必要的任何屬性。

如果你寫的HTML文件,然後他們應該是良好的,所以這會很容易。

+0

我喜歡這個答案。畢竟HTML是一些XML的軟件,你需要實現DOM對象和解析器。您基本上需要將HTML標記轉換爲XML標記,因此在解析它時,可以用XML標記替換HTML標記。 – DarthVader 2009-11-16 01:57:44

0

不要與數據庫或SQL剝離HTML。相反,用刮刀在應用程序代碼的最後一英里剝去它。

谷歌這樣的: 「HTML Scraper」。 HTML屏幕抓取工具讀取HTML內容並輸出內容,而不是HTML。或者,也可以使用Stack Overflow:「Screen-scraping HTML」。

+0

不要告訴他,google一下(即使多數民衆贊成什麼,他應該做的),點他在計算器爲直這裏;)http://stackoverflow.com/search?q=html+scraper – voyager 2009-11-16 02:02:08

相關問題