scrapy

    2熱度

    1回答

    以下代碼基本上是Amazon Spider的樣本。 我想知道可以亞馬遜服務器(或任何其他服務器)知道什麼是我們傳入數據scrapy Request.meta。如果Request.meta未與我們的請求一起傳遞,那麼我們如何將該元數據接收到我們的response.meta中。 有人可以解釋scrapy request.meta和response.meta如何工作? import random fr

    1熱度

    1回答

    我正在開發scrapy蜘蛛,它正在成功生成一些項目。這些項目應該使用pymysql插入到數據庫中。因爲數據是關係型的,所以我必須執行一些插入語句。 我想在每次整個插入之後調用connection.commit()以確保發生錯誤不會導致數據庫中的不一致條目。 我目前想知道scrapy是否會爲多個項目並行調用process_item,或者爲一個接一個項目順序調用。如果是後者的話,我可以簡單地用下面的辦

    0熱度

    1回答

    我試圖在代碼中的網站刮鞋價格。我不知道我的語法是否正確。我真的可以用一些幫助。 from scrapy.spider import BaseSpider from scrapy import Field from scrapy import Item from scrapy.selector import HtmlXPathSelector def Yeezy(Item): price

    0熱度

    1回答

    我是Scrapy的新手。我正嘗試使用媒體管道下載文件。但是,當我運行蜘蛛沒有文件存儲在文件夾中。 蜘蛛: import scrapy from scrapy import Request from pagalworld.items import PagalworldItem class JobsSpider(scrapy.Spider): name = "songs"

    1熱度

    1回答

    當我在PC上安裝scrapy框架時遇到了錯誤「command」cl.exe'failed no such file or directory「,並且在我修復它通過在Visual Studio 14中導入cl.exe的路徑,我不會再看到該錯誤(命令'cl.exe'失敗沒有這樣的文件或目錄),但我遇到了一個新的錯誤,談論文件MSVCP140.dll丟失。的Scrapy在Windows

    0熱度

    2回答

    scrapy中的lxml模塊在您嘗試返回不包含'。'的內容時工作正常。字符使用text()函數,但是當它們包含'。'時如'11.14'查詢返回' - '。如何解決這個問題? 這裏是我的代碼: stock_price = hxs.xpath('//td[@id="gt1"]//text()').extract() 目標HTML看起來像這樣: <td id="gt1" class="txtl gr

    0熱度

    1回答

    如何設置Scrapy並使其爬逐一首先,看看下面我的代碼:? def parse(self, response): movies = Movie.query.filter(Movie.rating_num>6).all() for m in movies: url = "http://movie.douban.com/subject/"+str(m.id)+"/

    0熱度

    2回答

    如何在可用變量中獲得scrapy請求的結果。 def parse_node(self,response,node): yield Request('LINK',callback=self.parse_listing) def parse_listing(self,response): for agent in string.split(response.xpath('//no

    0熱度

    1回答

    我遍歷元素的兄弟節點。但是,我無法使用xpath函數來提取其中的數據。我似乎總是獲得一個空的列表。 # Determine if the cast members are listed in a table or unordered list. cast_siblings = response.xpath('//h2/span[starts-with(@id,"Cast")]/../follow

    1熱度

    2回答

    我正在用Scrapy來抓取列表。我的腳本首先使用parse_node解析清單網址,然後使用parse_listing解析每個清單,對於每個清單,使用parse_agent解析清單代理。我想創建一個數組,當scrapy通過列表和代理進行解析時,這些數組會隨着每個新列表的重置而重新生成。 這是我分析的腳本: def parse_node(self,response,node): yield