我編寫了一個使用urllib獲取網頁中所有文章標題的程序(本例中爲nytimes.com)。只有一個問題。有些標題有分號,如果打印出來會導致醜陋的「There \ xe2 \ x80 \ x99s」。所以我試圖用\'替換\ xe2 \ x80 \ x99,但它似乎不起作用。我認爲元組有問題。不幸的是我不能創建一個元組,導致同樣的問題。Python3:編輯使用urllib獲取的數據
import urllib.request
import urllib.parse
import re
url = 'https://www.nytimes.com/'
headers = {}
headers['User-Agent'] = 'Mozilla/5.0 (X11; Linux i686)'
req = urllib.request.Request(url, headers = headers)
resp = urllib.request.urlopen(req)
resp_data = resp.read()
par = re.findall(r'story-heading"><a href="(.*?)">(.*?)</a>',str(resp_data))
for n in par:
print(n[1])
print(n[1].replace("\xe2\x80\x99","'"))
我試圖從元組中創建字符串變量,但沒有任何工作。我知道BeautifulSoup還有另一個解決方案,但我想我會試着找到自己的方式。
它的工作。 Tyvm :-) –
希望它能幫助你。如果滿足您的需求,您可以上傳和/或接受此答案。 –
謝謝,我做到了。新的論壇 –