var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);
使用時,上面的代碼給出瞭解析錯誤的最好方式,但是如果我更換使用舊版XML類的XmlService類,與寬鬆的標誌設置,它解析正確的HTML。什麼是解析HTML在谷歌的Apps腳本
var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);
該問題主要是由於html的javascript部分中沒有CDATA引起的,解析器抱怨出現以下錯誤。
The entity name must immediately follow the '&' in the entity reference.
即使我刪除所有<script>(.*?)</script>
使用正則表達式,它仍然抱怨,因爲<br>
標籤未關閉。 是否有將DOM解析爲DOM樹的乾淨方式。
請參閱http://stackoverflow.com/a/1732454/362634 ... –
您可能會抓取頁面並使用解析器去除unwants標記,然後啓動另一個解析,這可能是可能的。我知道XmlService運行良好,但是有點bug。 – hwnd