2
我無法刮取分頁網頁中存在的文章的鏈接。此外,我有時會得到一個空白屏幕作爲我的輸出。我無法在循環中找到問題。此外,csv文件不會被創建。美麗的湯 - 無法從分頁頁面中獲取鏈接
from pprint import pprint
import requests
from bs4 import BeautifulSoup
import lxml
import csv
import urllib2
def get_url_for_search_key(search_key):
for i in range(1,100):
base_url = 'http://www.thedrum.com/'
response = requests.get(base_url + 'search?page=%s&query=' + search_key +'&sorted=')%i
soup = BeautifulSoup(response.content, "lxml")
results = soup.findAll('a')
return [url['href'] for url in soup.findAll('a')]
pprint(get_url_for_search_key('artificial intelligence'))
with open('StoreUrl.csv', 'w+') as f:
f.seek(0)
f.write('\n'.join(get_url_for_search_key('artificial intelligence')))
爲了進行初步測試,我拿了第100頁。問題是,當我嘗試打印基於您的解決方案的鏈接時,我會看到一系列「無」打印在另一個下面。 – Rrj17
你如何打印它們?請提供完整的代碼 –
剛剛在您提供的代碼片段之後使用'pprint(res.append([url]'[url]')])'url中的URL。我不確定這是否正確。非常困惑。 – Rrj17