2011-02-08 40 views
2

所以我仍然在研究這個解析器。今天我發現一個帶有標籤的文檔<st1:place w:st="on"> Google告訴我這是一個Microsoft Office智能標籤。什麼是智能標籤,如何從html中刪除它們?

我想擺脫這些事情,但我找不到他們是什麼或有多少他們的列表?

如果他們都遵循<...:...>模式,使用正則表達式很容易刪除。

該文檔沒有文檔類型和擴展名.jsp,但所有內容都在兩個<html>標籤之間,但是非標準的野獸是,我仍然需要解析它。

確定它實際上不是一個大問題,但它拋出我的格式&錯誤我。

+0

請參閱:http://stackoverflow.com/q/3801803/180136 – shamittomar 2011-02-08 05:08:01

回答

1

這個規則表達式應該做的伎倆:

/<[:alnum:]+:[\s\S]*>/ 

這將觸發與<後跟一個字母數字圖案後跟一個打開的任何標記「:」冒號。

或者:

/<\s*[:alnum:]+:[\s\S]*>/ 

將允許標籤(開<和命名空間之間的空間)

-1

我們想刪除<w:smartTag>什麼列示如下是幫助我們的寬鬆格式。

/<w:smartTag[^>]*>/