import requests
import csv
from bs4 import BeautifulSoup
page = requests.get("https://www.google.com/search?q=cars")
soup = BeautifulSoup(page.content, "lxml")
import re
links = soup.findAll("a")
with open('aaa.csv', 'wb') as myfile:
for link in soup.find_all("a",href=re.compile("(?<=/url\?q=)(htt.*://.*)")):
a = (re.split(":(?=http)",link["href"].replace("/url?q=","")))
wr = csv.writer(myfile, quoting=csv.QUOTE_ALL)
wr.writerow(a)
此代碼的輸出是,我有一個CSV文件,其中28個URL保存,但URL不正確。例如,這是一個錯誤的URL: -解析URL美麗
相反,它應該是: -
http://www.imdb.com/title/tt0317219/
如何刪除第二個是對每一個URL,如果它包含"&sa="
因爲那麼URL的第二部分應從以下位置開始移除: - "&sa="
應該被移除,以便所有網址都保存爲第二個網址。
我使用python 2.7和Ubuntu 16.04。
你正在使用什麼?你在這裏使用正則表達式的目的是什麼? – Mohamed