我只想打印簡單網站的HTML文本。當我嘗試打印時,我使用換行符(\n
)以原始格式顯示下面的文本,而不是實際的新行。如何在Python 3.x中逐行打印網頁
這是我的代碼:
import urllib.request
page = urllib.request.urlopen('http://www.york.ac.uk/teaching/cws/wws/webpage1.html', data = None)
pageText = page.read()
pageLines = page.readlines()
print(pageLines)
print(pageText)
我已經試過各種其他的東西,發現一些東西。當我嘗試索引pageText
變量時,即使在將其轉換爲字符串後,它也找不到任何\n
字符。如果我嘗試使用代表\n
和print()
的新行自己複製原始文本,它會將\n
字符轉換爲我想要的實際新行。問題是,我無法自己複製它而無法得到結果。
要告訴你我的意思是,這裏有一些HTML片段:
原始文本:
b'<HMTL>\n<HEAD>\n<TITLE>webpage1</TITLE>\n</HEAD>\n<BODY BGCOLOR="FFFFFf" LINK="006666" ALINK="8B4513" VLINK="006666">\n
我想要什麼:
b'<HMTL>
<HEAD>
<TITLE>webpage1</TITLE>
</HEAD>
<BODY BGCOLOR='FFFFFf' LINK='006666' ALINK='8B4513' VLINK='006666'>
我也用:
page = str(page)
lines = page.split('\n')
它驚奇地沒有做任何事。 它只是把它打印成一行。
請幫幫我。我很驚訝,我發現沒有任何工作適合我。即使在論壇上,也沒有任何工作。
'用於頁行:打印(line.decode( 'UTF-8'))'或'打印(page.read()進行解碼('UTF- 8'))' –