2015-08-14 45 views
0

我試圖用C語言解析一個網頁libcurl。由libcurl返回的特殊字符(ANSI?)

源網頁看起來像這樣。

「我們不必爲過去的侷限而解決問題。我們可以 檢查並重新審視我們的舊觀念「

然而,當它返回它似乎取代報價和撇號有特殊字符,並給了我這樣的結果:

我們不必須解決過去的侷限。我們可以 檢查並重新審視我們的舊觀念。

我還沒有碰到這個和讀書,好像它是一個編碼/字符集的問題,雖然我不能夠解決這個問題。

<meta http-equiv="Content-Type" content="text/html; charset=windows-1252"> 

這應該有什麼效果嗎?如果是這樣,或者沒有,問題是什麼,我該如何解決這個問題?沒有其他網站我已經處理了返回這個奇怪的結果。

源URL:http://jftna.org/pages/8-14.htm

+0

用於表示源網頁中引號的實際字節值是什麼? – dan04

+0

Lib curl不會解釋您的HTML,因此標籤不會有任何影響。最好讓服務器發送適當的HTTP頭文件,libcurl *可以解釋這些頭文件。 – Daniel

+0

我相信這個頁面只能用於這個字符集。 – woahguy

回答

0

我肯定有更好的方法可以做到這一點,但我決定爲便於只需更換十六進制值。

out = replace_all(out, "\x93", "\""); 

感謝您的閱讀,如果有更好的方法,我會很高興聽到它!