如何刮掉後續頁面並將輸出放在數據框中

我是websoup的初學者，我無法設法在以下網站上刮幾頁（5）http://www.newyorksocialdiary.com/party-pictures（http://www.newyorksocialdiary.com/party-pictures?page=1-5）&我不知道如何把數據框中的輸出（日期）。謝謝！如何刮掉後續頁面並將輸出放在數據框中

from bs4 import BeautifulSoup 
    import requests 
    for i in range(10): 
    url= "http://www.newyorksocialdiary.com/party-pictures".format(i) 
    r=requests.get(url) 
    soup= BeautifulSoup(r.text) 

for r in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) : 
    print r.get_text()

來源

2017-01-30 Yasmine Nouri

from bs4 import BeautifulSoup 
import requests 
for i in range(10): 
    url= "http://www.newyorksocialdiary.com/party-pictures?page={}".format(i) 
    r=requests.get(url) 
    soup= BeautifulSoup(r.text) 

    for span in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) : 
     print span.get_text()

你幾乎可以得到它，只需改變你的網址。

來源

2017-01-30 02:11:04

謝謝！非常... –

試圖抓取一個網站的一般模式首先找出如何實現頁面。

一般

您的情況：通過頁面參數頁面= 1/2/3這可能是容易的，你只保留通過你需要
的所有頁面的計數器和循環
通過不同的絕對URL，最簡單的一個
通過HTML post請求，這可能是更TRIC有點KY。

在你的情況下，它只是一個頁面變量，可以將其連接到基本URL，並得到你想要的。

對於熊貓的一部分，theres一個方便的read_html選項。

來源

2017-01-30 01:02:56 Bobby

如何刮掉後續頁面並將輸出放在數據框中

回答

相關問題