我正在用一對Perl模塊解析一個HTML文檔:HTML::TreeBuilder和HTML::Element。出於某種原因,每當一個標籤的內容僅僅是
,這是可以預料的,它就會通過HTML ::元素作爲一個奇怪的字符回到我以前從來沒見過:爲什麼這個A0字符出現在我的HTML :: Element輸出中?
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
我可以」不要複製這個字符,所以不能在谷歌中找到它,在字符映射中找不到它,奇怪的是當我用正則表達式搜索時,\w
發現它。當我將返回的文檔轉換爲ANSI或UTF-8時,它完全消失。我在HTML :: Element文檔中也找不到任何信息。
我該如何偵測並用null
這個更有用的東西來檢測和替換這個角色,我將來應該如何處理這種奇怪的角色呢?
圖像鏈接已經爛 –