2014-09-22 57 views
1

我正在使用Google電子表格從HTML頁面中提取一些書籍描述。源代碼中的Xpath重音

A1包含ISBN編號,在另一個單元中,我有這個=importXML("http://www.ibs.it/code/"&A1& "/scheda/libro.html","(//span[@class='tcorpotesto'])[1]")

它的作品,但口音有問題。例如http://www.ibs.it/code/9788823503298/hornby-nick/febbre-90ordm.html其中一個單詞是'Perché',但單元格中的文字是'Perch?'

我該如何解決這個問題?所有重音字符都是同樣的問題。

+1

XPath本身是編碼不可知的 - 或者,它預計會針對包含字符而不是字節的數據運行,而字節已經從磁盤上的表單解碼。簡而言之,這不是一個通用的XPath問題,更需要一些潛入實現細節的東西。 – 2014-09-23 00:04:55

回答

0

http://www.ibs.it/code/9788823503298/hornby-nick/febbre-90ordm.html的文檔使用ISO-8859-1編碼。

Google使用UTF-8。

看來它們的importXML()實現不會執行保持這些字符正確的字符集轉換。您可以提供自己的代理/ Web服務,以在線方式運行翻譯,或者從上游提交請求修復的票證。