我試圖解析一些HTML,其中包括一些HTML實體,像×的DomDocument和HTML實體
$str = '<a href="http://example.com/"> A × B</a>';
$dom = new DomDocument;
$dom -> substituteEntities = false;
$dom ->loadHTML($str);
$link = $dom ->getElementsByTagName('a') -> item(0);
$fullname = $link -> nodeValue;
$href = $link -> getAttribute('href');
echo "
fullname: $fullname \n
href: $href\n";
但的DomDocument替代品,對A- B.
文本是否有某種方式爲了防止它從一個HTML實體採取&,並讓它只是讓它一個人?我試圖設置substituteEntities爲false,但它不會執行任何操作。
你爲什麼要保留它們? – Gordon
我只* *想要,我實際上想要做的是用一個x替換它們,因爲那會把文本放在與我正在更新的刮板的一些舊代碼相同的格式中,而且我絕對沒有想法如何去包括那些在正則表達式中的符號 – rafa