2013-03-08 43 views
-1

我想使用scraperwiki和python來構建一個刮板,它可以從大量不同的站點上獲取信息。我想知道是否可以指向一個URL,然後從該網站中的每個鏈接中刪除數據。從一個站點內的多個鏈接中刮取數據

例如:一個網站將包含有關不同項目的信息,每個項目都在其各自的鏈接中。我不需要這些鏈接的列表,但它們中包含的實際數據。

刮板會在每個鏈接上尋找相同的屬性。

有誰知道如何或如果我可以去做這件事?

謝謝!

+1

查看http://stackoverflow.com/questions/2081586/web-scraping-with-python – user1929959 2013-03-08 00:35:20

+0

@ user1929959:接受的答案不是很好的答案。 – Blender 2013-03-08 00:36:38

回答

1

用urllib2檢查BeautifulSoup。

http://www.crummy.com/software/BeautifulSoup/

一種(非常)粗略例如鏈接刮板應該是這樣的:

from bs4 import BeautifulSoup 
import urllib2 

c = urllib2.urlopen(url) 
contents = c.read() 
soup = BeautifulSoup(contents) 
links = soup.find_all(a): 

然後只寫一個for循環在做很多次,你定!

相關問題