0
可能重複裏面的內容:
how to extract body contents using regexp使用JavaScript和正則表達式來獲取HTML體
我有是有一個完整的網頁內容,如HTML響應文本,頭部,身體。我只想要body內的內容。如何使用regx.please實現這一點有助於實現這一點。
可能重複裏面的內容:
how to extract body contents using regexp使用JavaScript和正則表達式來獲取HTML體
我有是有一個完整的網頁內容,如HTML響應文本,頭部,身體。我只想要body內的內容。如何使用regx.please實現這一點有助於實現這一點。
DOM解析器是最可靠的提取數據的方法,但是如果HTML是理智的話,正則表達式可以做相當不錯的工作。 (即文本:<body
或:</body
不會出現在註釋,腳本,樣式表,CDATA節或屬性值中,而BODY元素的開始標記屬性不包含:>
字符。)該正則表達式捕獲第一個最內層BODY元素(只應該永遠是一個):
var bodytext = '';
var m = text.match(/<body[^>]*>([^<]*(?:(?!<\/?body)<[^<]*)*)<\/body\s*>/i);
if (m) bodytext = m[1];
它實現傑弗裏·弗裏德爾的「開卷半實物」效率技術,因此是相當快的。
請勿使用正則表達式。使用DOM。正則表達式不適合解析HTML。 –