2009-11-30 79 views
0

我正在嘗試解析一些HTML代碼片段,並且因爲各種原因想要對它們進行清理(XSS等)。將eregi_replace轉換爲preg_replace

我目前正試圖刪除任何標籤上的所有屬性,除了錨點上的href。我正在使用一系列eregi_replace調用來做到這一點,但我確信使用preg_replace和僅僅幾行代碼就可以做到這一點,但我一直無法使其工作。誰能幫忙?

當前代碼:

$data_item = eregi_replace("<p[^>]*>","<p>", $data_item); 
$data_item = eregi_replace("<h2[^>]*>","<h2>", $data_item); 
$data_item = eregi_replace("<h3[^>]*>","<h3>", $data_item); 
$data_item = eregi_replace("<h4[^>]*>","<h4>", $data_item); 
$data_item = eregi_replace("<h5[^>]*>","<h5>", $data_item); 
$data_item = eregi_replace("<h6[^>]*>","<h6>", $data_item); 
$data_item = eregi_replace("<ul[^>]*>","<ul>", $data_item); 
$data_item = eregi_replace("<ol[^>]*>","<ol>", $data_item); 
$data_item = eregi_replace("<li[^>]*>","<li>", $data_item); 

$data_item = preg_replace("/<a([^>]*)(href=\S+)([^>]*)>/i", '<a$2 rel="nofollow">', $data_item); 

(I只需要解析HTML標籤的子集,因爲這我去掉任何undesireables之前)。

回答

3

爲什麼不使用匹配任何標籤的普通正則表達式,然後使用preg_replace_callback()來確定給定標籤應該替換的內容?這樣,你可以有一個簡單的函數來檢查匹配的標籤是否是a標籤,如果是,則不要替換href,否則將全部替換。

或者,你可以做這樣的事情:

$data_item = preg_replace("/<(p|h2|h3|h4|h5|h6|ul|ol)[^>]*>/i","<$1>", $dataitem); 

()組中的正則表達式捕獲標籤的匹配類型,|是「或」運算符來匹配任何指示標記,並且替換文本中的$1用於替換模式中第一個(也是唯一)捕獲組所匹配的內容。

相關問題