2011-05-10 19 views
0

這種反應在給YQL (select * from html where url="...")請求我得到了以下回應:如何處理從YQL

callback({ 
    "query": 
     {"count":"1","created":"2011-05-09T23:29:05Z","lang":"en-US" 
    }, "results": ["<body>... we\ufffdll call Mr ...</body>"] 
} 

這是從YQL控制檯頁面。 當我(甚至在YQL的頁面)鍵入序列到螢火蟲我得到:

... we�ll call Mr ... 

我在做什麼錯? YQL的網站編碼不好嗎?有什麼方法可以將這樣的符號轉換爲它們的ascii等價物嗎?

BTW,這不是我的網站,所以它不喜歡我可以改變在該網站上

回答

1

未知或不可表示可能的答案,這些可能有助於得到更好的答案:

  1. 你在那個地方期待什麼角色?
  2. 你可以發佈你正在抓取的網址嗎?
  3. 那個頁面上的字符是否也會被YQL拾取時發生變形?

更新

您可能希望在YQL查詢where子句中檢查出的charset選項 - 我不能完全肯定它做什麼,但它看起來像它迫使YQL引擎解析頁面時使用指定的字符集。也許將其設置爲UTF-8將解決您的問題。

例如,

select * from html where url = 'http://google.com' and charset='utf-8' 
+0

它越來越受YQL已經錯位,我期待一個單引號或雙引號。主站點的引用全都像MS Word中的 – qwertymk 2011-05-11 00:09:32

+0

@qwertymk是否可以發佈重現此行爲的URL?我已經嘗試了幾個使用智能/捲曲引用的頁面,但它似乎對我來說工作正常,所以它可能是特定於您從中提取數據的頁面的東西。 – 2011-05-11 01:15:53

+0

我目前沒有,它在我的其他電腦上 – qwertymk 2011-05-11 01:21:06