scrapy

2熱度

1回答

以下代碼基本上是Amazon Spider的樣本。我想知道可以亞馬遜服務器（或任何其他服務器）知道什麼是我們傳入數據scrapy Request.meta。如果Request.meta未與我們的請求一起傳遞，那麼我們如何將該元數據接收到我們的response.meta中。有人可以解釋scrapy request.meta和response.meta如何工作？ import random fr

1熱度

1回答

Scrapy項目流水線並行或順序執行process_item

我正在開發scrapy蜘蛛，它正在成功生成一些項目。這些項目應該使用pymysql插入到數據庫中。因爲數據是關係型的，所以我必須執行一些插入語句。我想在每次整個插入之後調用connection.commit()以確保發生錯誤不會導致數據庫中的不一致條目。我目前想知道scrapy是否會爲多個項目並行調用process_item，或者爲一個接一個項目順序調用。如果是後者的話，我可以簡單地用下面的辦

0熱度

1回答

Scrapy報告0頁抓取

我試圖在代碼中的網站刮鞋價格。我不知道我的語法是否正確。我真的可以用一些幫助。 from scrapy.spider import BaseSpider from scrapy import Field from scrapy import Item from scrapy.selector import HtmlXPathSelector def Yeezy(Item): price

0熱度

1回答

Scrapy Media Pipeline，文件無法下載

我是Scrapy的新手。我正嘗試使用媒體管道下載文件。但是，當我運行蜘蛛沒有文件存儲在文件夾中。蜘蛛： import scrapy from scrapy import Request from pagalworld.items import PagalworldItem class JobsSpider(scrapy.Spider): name = "songs"

1熱度

1回答

Scrapy：pip在python 3.6的windows 10上安裝scrapy，並遇到Missing MSVCP140.dll文件

當我在PC上安裝scrapy框架時遇到了錯誤「command」cl.exe'failed no such file or directory「，並且在我修復它通過在Visual Studio 14中導入cl.exe的路徑，我不會再看到該錯誤（命令'cl.exe'失敗沒有這樣的文件或目錄），但我遇到了一個新的錯誤，談論文件MSVCP140.dll丟失。的Scrapy在Windows

0熱度

2回答

lxml xpath path/text（）無法在'。'後返回值。出現在scrapy中

scrapy中的lxml模塊在您嘗試返回不包含'。'的內容時工作正常。字符使用text（）函數，但是當它們包含'。'時如'11.14'查詢返回' - '。如何解決這個問題？這裏是我的代碼： stock_price = hxs.xpath('//td[@id="gt1"]//text()').extract() 目標HTML看起來像這樣： <td id="gt1" class="txtl gr

0熱度

1回答

如何設置Scrapy並逐一抓取？

如何設置Scrapy並使其爬逐一首先，看看下面我的代碼：？ def parse(self, response): movies = Movie.query.filter(Movie.rating_num>6).all() for m in movies: url = "http://movie.douban.com/subject/"+str(m.id)+"/

0熱度

2回答

獲取Scrapy請求的結果

如何在可用變量中獲得scrapy請求的結果。 def parse_node(self,response,node): yield Request('LINK',callback=self.parse_listing) def parse_listing(self,response): for agent in string.split(response.xpath('//no

0熱度

1回答

Scrapy通過兄弟節點迭代 - xpath生成空列表

我遍歷元素的兄弟節點。但是，我無法使用xpath函數來提取其中的數據。我似乎總是獲得一個空的列表。 # Determine if the cast members are listed in a table or unordered list. cast_siblings = response.xpath('//h2/span[starts-with(@id,"Cast")]/../follow

1熱度

2回答

創建具有多個解析的項目的Scrapy數組

我正在用Scrapy來抓取列表。我的腳本首先使用parse_node解析清單網址，然後使用parse_listing解析每個清單，對於每個清單，使用parse_agent解析清單代理。我想創建一個數組，當scrapy通過列表和代理進行解析時，這些數組會隨着每個新列表的重置而重新生成。這是我分析的腳本： def parse_node(self,response,node): yield