2014-11-06 44 views
0

的帶\ r \ n我設法獲得外部網站的頁面源DOM,但它帶有\ r \ n和大量空白。來自python變量

import urllib.request 

request = urllib.request.Request('http://example.com') 
response = urllib.request.urlopen(request) 
page = response.read() 
page = page.strip('\r\n') 
print (page) 

我試過剝去它們,但沒有運氣。我怎樣才能得到只是的HTML?

第二,用javascript/jquery操作返回的DOM的邏輯是什麼?我希望做一些事情,如:

alert(document.getElementsByTagName('h1')[0].innerHTML); 

其中應提醒「示例領域」與生成的DOM。

+0

「沒有運氣」沒有幫助。 「打印(頁面)」輸出是什麼? – Andy 2014-11-06 19:35:53

+0

@Andy'TypeError:Type str不支持緩衝區API' – 2014-11-06 19:36:18

+0

不知道您是否意識到這一點,但是'strip'只能從字符串的開頭或結尾刪除字符。例如''\ na \ nb \ n「.strip(」\ n「)'返回''a \ nb''。 – Kevin 2014-11-06 19:39:31

回答

2
'foo \r\n bar\r\n'.strip() 

只會在最後刪除'\r\n'。如果您在整個文本中都有這些鏈接,請嘗試如下鏈接.replace():

'foo \r\n bar\r\n'.replace('\r', '').replace('\n', '').replace(' ', '')