2010-06-24 50 views
2

我希望能夠解析包含 無效XML的RSS和Atom提要。我遇到的錯誤以及想要修復 的錯誤包括諸如&gt之類的「簡單」錯誤,其中;爲 缺失,缺少結束標記並且結尾標記出現在 錯誤的順序中。使用Perl解析錯誤的RSS提要

我想忽略這個問題,理論上它是否使得任何 有意義嘗試解析格式不正確的XML文檔。一個 「技術」一詞似乎與我想要做的 相當接近是「標籤湯」。我應該使用哪些現有的CPAN模塊來構建能夠容忍或更正上述那些簡單錯誤(例如 )的解析器?

回答

4

recover標誌爲LibXML,如果您確實需要的話,或者XML-Liberal如果您真的想在解析任何舊垃圾時過度使用。

我相信你會忽略解析非格式良好的文檔是否有意義,但忽略它不會讓它消失。大多數RSS工具將完全拒絕任何非格式良好的XML輸入;你通常應該效仿,除非你的工具像RSS調試器那樣不尋常。

「標籤湯」是與HTML解析特別相關的術語。 XML(以及RS​​S和Atom)的核心思想之一就是沒有這種東西。