2014-02-09 22 views
0

使用爬行蜘蛛來做到這一點的任何方式?不會產生請求。只是一個例子就足夠了。我想使用href文本作爲網頁的標題,並鏈接到包含該鏈接的url。我只是使用基本的選擇器來填充我的項目,但不知道如何獲取這些信息。在Scrapy中傳遞href文本和引用網頁

編輯: 我看着它,我希望能夠在href題目的元數據和引用URL來傳遞,也能夠符合我所定義的規則,而不是讓所有的URL和對他們進行自我調節。

元= { 「hrefText」:...... 「refURL」:...}

+0

得到HREF案文你舉一個例子來幫助澄清你的要求?你到目前爲止還嘗試過哪些代碼? – Talvalin

回答

0

CrawlSpider代碼:

for link in links: 
    r = Request(url=link.url, callback=self._response_downloaded) 
    r.meta.update(rule=n, link_text=link.text) 
    yield rule.process_request(r) 

這意味着你可以從response.meta['link_text']

+0

看起來很有希望。我會嘗試一下。 – John

+0

我如何從處理過的頁面獲取鏈接?我希望它是遞歸的 – John

+0

請參閱http://doc.scrapy.org/en/latest/topics/spiders.html#crawling-rules你必須設置'follow = True' –