我的第一個問題在這裏:)嘗試使用scrapy檢索網頁的所有鏈接。但我不能輸出頁面上的鏈接
我試圖抓取我的學校網站的所有可能的網頁有。但我無法將鏈接導入到文本文件中。我有正確的權限,所以這不是問題。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
class hsleidenSpider(CrawlSpider):
name = "hsleiden1"
allowed_domains = ["hsleiden.nl"]
start_urls = ["http://hsleiden.nl"]
# allow=() is used to match all links
rules = [
Rule(SgmlLinkExtractor(allow=()), follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self, response):
x = HtmlXPathSelector(response)
filename = "hsleiden-output.txt"
open(filename, 'ab').write(response.url)
所以我只在hsleiden.nl頁面上掃描。我想將response.url放入文本文件hsleiden-output.txt中。
有什麼辦法可以做到這一點嗎?
請具體說明您的問題。你期望發生什麼?發生了什麼呢? – Sheena
如果我想借用你的代碼,我怎麼稱呼它? –