0
的帶\ r \ n我設法獲得外部網站的頁面源DOM,但它帶有\ r \ n和大量空白。來自python變量
import urllib.request
request = urllib.request.Request('http://example.com')
response = urllib.request.urlopen(request)
page = response.read()
page = page.strip('\r\n')
print (page)
我試過剝去它們,但沒有運氣。我怎樣才能得到只是的HTML?
第二,用javascript/jquery操作返回的DOM的邏輯是什麼?我希望做一些事情,如:
alert(document.getElementsByTagName('h1')[0].innerHTML);
其中應提醒「示例領域」與生成的DOM。
「沒有運氣」沒有幫助。 「打印(頁面)」輸出是什麼? – Andy 2014-11-06 19:35:53
@Andy'TypeError:Type str不支持緩衝區API' – 2014-11-06 19:36:18
不知道您是否意識到這一點,但是'strip'只能從字符串的開頭或結尾刪除字符。例如''\ na \ nb \ n「.strip(」\ n「)'返回''a \ nb''。 – Kevin 2014-11-06 19:39:31