2
我正試圖編寫一個小程序,使用libxml2從網頁中提取一些數據。由於數據是在一個HTML文件的地方,我決定使用以下爲出發點,以獲得HTML到一筆畫存儲結構:使用libxml2解析HTML給實體參考問題
int main(int argc, char* argv[])
{
htmlDocPtr dp = htmlReadFile(argv[1], NULL, HTML_PARSE_RECOVER | HTML_PARSE_NONET);
然而,當我運行此傳遞HTML文件作爲參數,我得到一個錯誤:
HTML parser error : htmlParseEntityRef: expecting ';'
什麼它似乎是在抱怨如下:
<a href="do_something.html?a=1&b=2"> some stuff </a>
即在而非忽略href
的內容致敬或將其視爲帶參數的URL,它似乎將&b
中的位視爲實體引用,如&name;並抱怨沒有分號。當然,這是不正確的?我是否應該做一些不同的事情來讓它忽略這一點(我對這些標籤無論如何都不感興趣),還是隻是以某種方式錯過了這一點?
是的,你說得對。這不是這個(據說是xhtml符合性)頁面中的第一個錯誤。非常感謝鏈接 - 我會跟着他們。 –