2011-05-01 35 views
0

嘗試使用YQL從totalfilm.com抽取數據數據時,但我發現了一個奇怪的錯誤:YQL - CDATA]]>錯誤選擇使用YQL

"The character sequence "]]>" must not appear in content unless used to mark the end of a CDATA section."

select * from html where url="www.totalfilm.com" 

link

+0

您的查詢工作對我很好,而且誤差非常不言自明的:你想什麼問題回答? – salathe 2011-05-03 18:20:49

+0

對不起,問題是我如何使用YQL從totalfilm.com刮取數據? – Garbit 2011-05-03 18:58:24

+0

啊哈,現在它給出了與問題中相同的錯誤。除非你願意自己整理HTML(在YQL或其他地方)或者讓Total Film解決它,否則可能沒有一個快速的答案。 – salathe 2011-05-03 19:02:51

回答

2

由於評論說,可能需要進行一些欺騙才能讓破碎的XHTML正常工作。

這裏是你一個快速,非常粗open data table它剝離從(X)HTML頁面中的任何<![CDATA[]]>(也Tidys它),施加一個可選的XPath表達式之前,如在正常html表,獲取您需要的數據。

你可以用它喜歡:

use "https://github.com/salathe/yql-tables/raw/examples/data/nocdata.xml" as html; 
select * from html where url="www.totalfilm.com"