從多個URL中刪除鏈接

我正在使用ScraperWiki從london-gazette.co.uk網站提取鏈接。我如何編輯代碼，以便我可以在底部粘貼多個單獨的搜索URL，並將它們全部整理到相同的數據存儲中？從多個URL中刪除鏈接

目前我只需粘貼新網址，點擊運行，新數據就會添加到舊數據的背面，但我想知道是否有辦法加快速度並獲得刮板一次處理多個網址？我會改變「通知碼」的URL的一部分：issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

對不起 - 新的堆棧溢出，我的編碼知識是非常不存在，但代碼是在這裏：https://scraperwiki.com/scrapers/links_1/edit/

來源

2013-04-15 Henry Taylor

........有人嗎？ –

我的回答是你想要的還是你在尋找別的東西？ –

對不起，以某種方式關閉了電子郵件通知。謝謝，但它沒有奏效。它適用於您的示例刮板，但是當我嘗試調整它以更改URL的通知代碼部分時，我無處可去。 –

您聯繫刮刀似乎是空的，但我看了瑞貝卡拉特克利夫的原始刮板。如果你是一樣的，你只要把你的網址，進入一個列表，並遍歷他們一個for循環：

urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1', 
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1', 
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1', 
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1'] 

base_url = 'http://www.london-gazette.co.uk' 
for u in urls: 
    starting_url = urlparse.urljoin(base_url, u) 
    scrape_and_look_for_next_link(starting_url)

只是看看this scraper，我複製並相應的調整。

來源

2013-04-17 11:45:32

從多個URL中刪除鏈接

回答

相關問題