使用JavaScript和正則表達式來獲取HTML體

可能重複裏面的內容：
how to extract body contents using regexp 使用JavaScript和正則表達式來獲取HTML體

我有是有一個完整的網頁內容，如HTML響應文本，頭部，身體。我只想要body內的內容。如何使用regx.please實現這一點有助於實現這一點。

2011-07-07 Raja

請勿使用正則表達式。使用DOM。正則表達式不適合解析HTML。 –

DOM解析器是最可靠的提取數據的方法，但是如果HTML是理智的話，正則表達式可以做相當不錯的工作。（即文本：<body或：</body不會出現在註釋，腳本，樣式表，CDATA節或屬性值中，而BODY元素的開始標記屬性不包含：>字符。）該正則表達式捕獲第一個最內層BODY元素（只應該永遠是一個）：

var bodytext = ''; 
var m = text.match(/<body[^>]*>([^<]*(?:(?!<\/?body)<[^<]*)*)<\/body\s*>/i); 
if (m) bodytext = m[1];

它實現傑弗裏·弗裏德爾的「開卷半實物」效率技術，因此是相當快的。

來源

2011-07-07 14:34:21 ridgerunner

使用JavaScript和正則表達式來獲取HTML體

回答

相關問題