2013-04-15 55 views
0

我正在使用ScraperWiki從london-gazette.co.uk網站提取鏈接。我如何編輯代碼,以便我可以在底部粘貼多個單獨的搜索URL,並將它們全部整理到相同的數據存儲中?從多個URL中刪除鏈接

目前我只需粘貼新網址,點擊運行,新數據就會添加到舊數據的背面,但我想知道是否有辦法加快速度並獲得刮板一次處理多個網址?我會改變「通知碼」的URL的一部分:issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

對不起 - 新的堆棧溢出,我的編碼知識是非常不存在,但代碼是在這裏:https://scraperwiki.com/scrapers/links_1/edit/

+0

........有人嗎? –

+0

我的回答是你想要的還是你在尋找別的東西? –

+0

對不起,以某種方式關閉了電子郵件通知。謝謝,但它沒有奏效。它適用於您的示例刮板,但是當我嘗試調整它以更改URL的通知代碼部分時,我無處可去。 –

回答

0

您聯繫刮刀似乎是空的,但我看了瑞貝卡拉特克利夫的原始刮板。如果你是一樣的,你只要把你的網址,進入一個列表,並遍歷他們一個for循環:

urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1', 
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1', 
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1', 
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1'] 

base_url = 'http://www.london-gazette.co.uk' 
for u in urls: 
    starting_url = urlparse.urljoin(base_url, u) 
    scrape_and_look_for_next_link(starting_url) 

只是看看this scraper,我複製並相應的調整。