2010-06-28 104 views
0

我遇到了HtmlUnit解析器的問題,我試圖從網站中抓取一些XML(使用網站的API),對結果XML進行快速解析,然後將XML保存到文件中(所有內部API的權利)。 (sample content如何爲HtmlUnit XML解析器定義一個新的實體?

不幸的是,網站中的一些請求頁面的返回實體¿,雖然這是一個有效的HTML實體的HtmlUnit是分析過程中的與消息拋出一個異常:

實體「iquest 「被引用,但未被宣佈。

如何將iquest定義爲有效實體?

回答

1

您無法定義¿除了通過編輯您接收到的數據(該數據不是XML作爲任何驗證程序將顯示如first one I found on google

該網站沒有投放有效的XML所以最好way是要求它解決XML。

當這則失敗要麼搜索和替換¿要麼添加一個DOCTYPE,它定義了實體& iquest。

+0

不夠公平。我希望能夠截取流並使用HtmlUnit解析器,而不是我正在接受的內容在這些無效的實體被剝離的情況下,在HU框架之外解析它。 – 2010-06-28 18:56:06