2016-02-16 34 views
1

我想這捲曲網址:http://www.mensa.uzh.ch/menueplaene/raemi59_di.html但不管是什麼招數編碼我嘗試的組合,所有的變音符號換出與Unicode替換字符冰壺德國網站交換與替換字符特殊charachters

我不知道如何正確執行此操作或嘗試使用哪個標頭。謝謝你的幫助!我也不確定正確的方法去調試這個,所以如果你可以分享一些你對哪些步驟的瞭解,我會欣賞額外的學習!

+0

該網站說,它在8859編碼(Latin-1的),鉻讀取它作爲Windows的1252(這兩個是非常相似);我不知道curl,但我的猜測是,它預設了UTF-8,如果使用了不同的編碼,將不得不被告知。 –

+1

@Tim Curl事實上根本不關心什麼是編碼,它不是它的業務。 – deceze

回答

2

該頁面聲明它在ISO-8859-1中編碼。如果您看到Unicode替換字符,那意味着您試圖用其中一種Unicode編碼解釋它(最可能是UTF-8)。所以,問題就在於,無論您試圖顯示哪些數據都將數據視爲UTF-8而不是真正的數據。

作爲一個簡單的例子,如果你這樣做是在命令行中,你可以將數據轉換爲預期的UTF-8,像這樣:

$ curl http://www.mensa.uzh.ch/menueplaene/raemi59_di.html | iconv -f ISO-8859-1 

如果你在一些編程語言捲曲使用任何類似的方式將ISO-8859-1的編碼轉換爲UTF-8。

或者,指示您的觀衆直接將數據視爲ISO-8859-1;在HTTP你會做,通過設置適當的標題:

Content-Type: text/html; charset=iso-8859-1 
+0

謝謝!你是如何確定編碼是什麼的? – motleydev

+1

查看頭部的''標籤。或者我會猜到。 – deceze

+0

啊哈。那麼,再次感謝! – motleydev