我有一個包含網站的內容,例如(概述,插入標籤和內容在你的頭腦)的字符串如何在沒有多餘的情況下獲得網站內容?
$string = '<html>
<head>
<meta content="text/html; charset=ISO-8859-1" http-equiv="content-type">
<title>Some title
</title>
</head>
<body>Navigation
<br><div>CSS</div>
<br><div>JavaScript</div>
<br>Advertising
<br><div>Content</div>
<br>Navigation
<br>Advertising
<br>Inprint
<br>
</body>
</html>'
我怎麼沒有多餘的內容?根據內容,我不是指「內容」一詞,而是指網站的任何真實內容。
例如,在一個論壇上,我希望本次論壇的條目沒有導航,標籤,廣告。
我試圖string s = Regex.Replace(string, "<.*?>", String.Empty);
這是剛剛剝離的標籤,但沒有得到內容。
有沒有對網站重複和可被利用一些模式,幫助我得到無雜波的內容?
我不知道你所說的「多餘」的意思。你可以發佈你的預期產出會是什麼? – smead
使用Html Agility Pack解析HTML。 –
@smead更新。 –