所以我仍然在研究這個解析器。今天我發現一個帶有標籤的文檔<st1:place w:st="on">
Google告訴我這是一個Microsoft Office智能標籤。什麼是智能標籤,如何從html中刪除它們?
我想擺脫這些事情,但我找不到他們是什麼或有多少他們的列表?
如果他們都遵循<...:...>
模式,使用正則表達式很容易刪除。
該文檔沒有文檔類型和擴展名.jsp,但所有內容都在兩個<html>
標籤之間,但是非標準的野獸是,我仍然需要解析它。
確定它實際上不是一個大問題,但它拋出我的格式&錯誤我。
請參閱:http://stackoverflow.com/q/3801803/180136 – shamittomar 2011-02-08 05:08:01