得到重複我完全新的Python和只是想開發一些程序網站刮板 - 輸出
我已經在Python 2.7編碼以下程序從目錄讀取配置文件的URL我的編碼技能 - http://www.uschirodirectory.com/entire-directory/list/alpha/a.html
但是,我注意到在獲取的URL列表中有很多重複的條目。有人可能會檢查代碼,並告訴我是否有我在這裏做的事情,或者有沒有一種方法可以進一步優化此代碼。
非常感謝
import requests
from bs4 import BeautifulSoup
def web_crawler(max_pages):
p = '?site='
page = 1
alpha = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
while page <= max_pages:
for i in alpha:
url = 'http://www.uschirodirectory.com/entire-directory/list/alpha/' + str(i) + '.html' + p + str(page)
code = requests.get(url)
text = code.text
soup = BeautifulSoup(text)
for link in soup.findAll('a',{'class':'btn'}):
href = 'http://www.uschirodirectory.com' + link.get('href')
print(href)
page += 1
i += alpha[0 + 1]
#Run the crawler
web_crawler
感謝您對我的評論。我是一名Python新手學習者,來自像你這樣的專業Python程序員的反饋對我來說非常寶貴。 –
@pb_ng,歡迎您。我很高興我能幫助你。 –