我想寫一個代碼來閱讀一個網頁的內容,但我不確定在該頁面使用的編碼,所以我怎麼能寫一個通用的代碼,返回正確的字符串沒有奇怪的符號? 編碼可能是(「UTF-8」,「windows-1256」,...)。 我試過但UTF-8,但當頁面編碼與第二次提到的編碼我有一些奇怪的符號。如何編寫通用代碼來讀取使用不同編碼的HTML?
這裏是我使用的代碼:
HttpWebRequest request = (HttpWebRequest)WebRequest.Create("SOME-URL");
request.Method = "GET";
WebResponse response = request.GetResponse();
StreamReader streamReader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.UTF8);
string content = streamReader.ReadToEnd();
這裏是引起該問題的鏈接: http://forum.khleeg.com/144828.html
但這個標籤總是存在於網頁中嗎?我已經提到「windows-1256」作爲一個例子,它可能是任何其他編碼,任何建議來解決這個問題。 – Mousa
@Mousa此標籤始終在使用非標準編碼的頁面上。但我已經爲此更新了答案。 – VMAtm
它可能是'HttpWebResponse.CharacterSet'而不是'HttpWebResponse.ContentEncoding'。 –