我正在使用python來檢索HTML源代碼,但是看起來像這樣。這是什麼,爲什麼我沒有得到實際的頁面源?奇怪的HTML代碼看起來像這樣b' xff xd8 xff xe0
B'\ XFF \ XD8 \ XFF \ xe0 \ X00 \ x10JFIF \ X00 \ X01 \ X01 \ X00 \ X00 \ X01 \ X00 \ X01 \ X00 \ X00 \ XFF \ XDB \ x00C
我正在使用python來檢索HTML源代碼,但是看起來像這樣。這是什麼,爲什麼我沒有得到實際的頁面源?奇怪的HTML代碼看起來像這樣b' xff xd8 xff xe0
B'\ XFF \ XD8 \ XFF \ xe0 \ X00 \ x10JFIF \ X00 \ X01 \ X01 \ X00 \ X00 \ X01 \ X00 \ X01 \ X00 \ X00 \ XFF \ XDB \ x00C
嘗試使用BeautifulSoup
下面是一個例子 How to correctly parse UTF-8 encoded HTML to Unicode strings with BeautifulSoup?
基本上,你看到的是編碼需要被解碼後的字符。
這是一張圖片。特別是一個JPEG。由於它是一個字節流python打印它b'.............'
一個jpeg開始於\xff\xd8\xff\
單線解決方案應發表評論。 – Rumit