2017-01-30 46 views
2

我是websoup的初學者,我無法設法在以下網站上刮幾頁(5)http://www.newyorksocialdiary.com/party-pictureshttp://www.newyorksocialdiary.com/party-pictures?page=1-5)&我不知道如何把數據框中的輸出(日期)。謝謝!如何刮掉後續頁面並將輸出放在數據框中

from bs4 import BeautifulSoup 
    import requests 
    for i in range(10): 
    url= "http://www.newyorksocialdiary.com/party-pictures".format(i) 
    r=requests.get(url) 
    soup= BeautifulSoup(r.text) 

for r in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) : 
    print r.get_text() 

回答

2
from bs4 import BeautifulSoup 
import requests 
for i in range(10): 
    url= "http://www.newyorksocialdiary.com/party-pictures?page={}".format(i) 
    r=requests.get(url) 
    soup= BeautifulSoup(r.text) 

    for span in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) : 
     print span.get_text() 

你幾乎可以得到它,只需改變你的網址。

+0

謝謝!非常... –

1

試圖抓取一個網站的一般模式首先找出如何實現頁面。

一般

  1. 您的情況:通過頁面參數頁面= 1/2/3這可能是 容易的,你只保留通過 你需要

    的所有頁面的計數器和循環
  2. 通過不同的絕對URL,最簡單的一個

  3. 通過HTML post請求,這可能是更TRIC有點KY。

在你的情況下,它只是一個頁面變量,可以將其連接到基本URL,並得到你想要的。

對於熊貓的一部分,theres一個方便的read_html選項。