從一個站點內的多個鏈接中刮取數據

-1

我想使用scraperwiki和python來構建一個刮板，它可以從大量不同的站點上獲取信息。我想知道是否可以指向一個URL，然後從該網站中的每個鏈接中刪除數據。從一個站點內的多個鏈接中刮取數據

例如：一個網站將包含有關不同項目的信息，每個項目都在其各自的鏈接中。我不需要這些鏈接的列表，但它們中包含的實際數據。

刮板會在每個鏈接上尋找相同的屬性。

有誰知道如何或如果我可以去做這件事？

謝謝！

來源

2013-03-08 Cetus

查看http://stackoverflow.com/questions/2081586/web-scraping-with-python – user1929959 2013-03-08 00:35:20

@ user1929959：接受的答案不是很好的答案。 – Blender 2013-03-08 00:36:38

用urllib2檢查BeautifulSoup。

http://www.crummy.com/software/BeautifulSoup/

一種（非常）粗略例如鏈接刮板應該是這樣的：

from bs4 import BeautifulSoup 
import urllib2 

c = urllib2.urlopen(url) 
contents = c.read() 
soup = BeautifulSoup(contents) 
links = soup.find_all(a):

然後只寫一個for循環在做很多次，你定！

來源

2013-03-08 01:14:08 dblarons

從一個站點內的多個鏈接中刮取數據

回答

相關問題