第一:我讀過將軍;不要在像這樣的XHTML參數上使用RegEx:RegEx match open tags except XHTML self-contained tags,我確實瞭解RegEx在嵌套XHTML或XML節點上的失敗方式。用PHP從XHTML中剝離微數據 - 使用RegEx?
我不明白爲什麼單獨操縱XML的屬性應該使用RegEx來中斷。所以似乎有一些例外。屬性始終包含在以<
開頭並以>
結尾的單個節點中,其間任何其他<or>
都會破壞XML,因此不會發生這種情況。
現在我想清除它可能包含的任何微數據的XHTML字符串。這是itemscope
,itemtype
,itemprop
,itemid
和itemref
的任何屬性。類似這樣的:
...
<body itemscope="itemscope" itemtype="http://schema.org/WebPage">
<div itemprop="maincontent">content</div>
...
在PHP中這樣做的最佳方式是什麼?
如果您想清除HTML中的微數據屬性,那麼HTMLPurifier或htmltidy就足夠了。都不知道html5屬性,並會刪除它們。 – mario