-1
我想使用scraperwiki和python來構建一個刮板,它可以從大量不同的站點上獲取信息。我想知道是否可以指向一個URL,然後從該網站中的每個鏈接中刪除數據。從一個站點內的多個鏈接中刮取數據
例如:一個網站將包含有關不同項目的信息,每個項目都在其各自的鏈接中。我不需要這些鏈接的列表,但它們中包含的實際數據。
刮板會在每個鏈接上尋找相同的屬性。
有誰知道如何或如果我可以去做這件事?
謝謝!
我想使用scraperwiki和python來構建一個刮板,它可以從大量不同的站點上獲取信息。我想知道是否可以指向一個URL,然後從該網站中的每個鏈接中刪除數據。從一個站點內的多個鏈接中刮取數據
例如:一個網站將包含有關不同項目的信息,每個項目都在其各自的鏈接中。我不需要這些鏈接的列表,但它們中包含的實際數據。
刮板會在每個鏈接上尋找相同的屬性。
有誰知道如何或如果我可以去做這件事?
謝謝!
用urllib2檢查BeautifulSoup。
http://www.crummy.com/software/BeautifulSoup/
一種(非常)粗略例如鏈接刮板應該是這樣的:
from bs4 import BeautifulSoup
import urllib2
c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):
然後只寫一個for循環在做很多次,你定!
查看http://stackoverflow.com/questions/2081586/web-scraping-with-python – user1929959 2013-03-08 00:35:20
@ user1929959:接受的答案不是很好的答案。 – Blender 2013-03-08 00:36:38