scrapy

    0熱度

    2回答

    因此,我試圖在scrapy中測試一些網頁,我的想法是產生一個滿足條件的URLS請求,計數頁面上的某些項目的數量,然後將原來的狀態中恢復真/假取決於... 下面是一些代碼來說明我的意思: def filter_categories: if condition: test = yield Request(url=link, callback = self.test_page, d

    0熱度

    1回答

    我想從HTML塊中的段落標記中提取「藍色」文本,但僅當h2標記爲==到「Foo」時才提取。 如何編寫一個Xpath語句,通過檢查h2的內容來返回p的內容? <section class="panel"> <header class="panel-heading"> <h2 class="h5 mrgn-tp-0 mrgn-bttm-0"> Foo col

    2熱度

    1回答

    我已經通過Scrapy從許多網站爬取了許多htmls(具有類似內容),而dom結構不同。 例如,一個站點使用以下結構: <div class="post"> <section class='content'> Content1 </section> <section class="panel"> </section> </div> <div

    0熱度

    1回答

    我正在做一個scrapy爬行程序。我有一個python模塊從數據庫中獲取urls,並且應該配置scrapy爲每個url啓動一個蜘蛛。因爲我從腳本啓動scrapy,所以我不知道如何在命令行開關-a中傳遞它的參數,以便每個調用接收不同的url。 這裏去了代號爲scrapy呼叫者 def scrape_next_url() : conn = _mysql.connect(host, username

    2熱度

    1回答

    我在一個Scrapy項目中有兩個蜘蛛。 Spider1抓取頁面或整個網站的列表並分析內容。 Spider2使用Splash在Google上獲取網址並將該列表傳遞給Spider1。 所以,Spider1抓取和分析內容,並可以在不被Spider2 # coding: utf8 from scrapy.spiders import CrawlSpider import scrapy class

    0熱度

    1回答

    我試圖抓取我必須首先登錄的頁面,但由於某種原因,scrapy在使用FormRequest之後爬取了另一個無關的頁面。見下面我的代碼: # coding: utf-8 import scrapy from scrapy.http import Request, FormRequest usuario = 'myemail' senha = 'mypassword' urllogin =

    2熱度

    3回答

    我想使用基於官方文檔中提供的代碼的Python腳本運行多個蜘蛛。我的scrapy項目包含多個蜘蛛(Spider1,Spider2,等)它抓取不同的網站並將每個網站的內容保存在不同的JSON文件中(output1.json,output2.json,等)。 在不同網站上收集的項目共享相同的結構,因此蜘蛛使用相同的項目,管道和設置類。輸出由管道中的自定義JSON類生成。 當我分別運行蜘蛛時,它們按預期

    0熱度

    2回答

    我是網絡抓取和Scrapy的新手。我希望你能幫助我。 我想從使用標籤的網頁中提取數據。通常,如果跨度標記使用的是類別,例如: <span class="class_A>Hello, World!</span> 我將使用以下代碼來檢索文本。 request.css('span.class_A::text').extract() 然而,當一個html現在使用的「ID」,而不是一個「階級」,例如

    0熱度

    1回答

    我遇到問題讓我的刮刀加載物品管道。在我的努力,試圖加我的自定義管道我收到以下錯誤: ImportError: No module named pipelines 我已經試過了文檔,但它並沒有真正解釋瞭如何設置ITEM_PIPELINE選擇路徑。這是從文檔的例子: ITEM_PIPELINES = { 'myproject.pipelines.PricePipeline': 300,

    0熱度

    1回答

    我想用Scrapy登錄Facebook。 我已經確定Facebook的手機版沒有javascript,所以我使用它。 相關的代碼是 from loginform import fill_login_form from scrapy.http import FormRequest def parse(self, response): """Login to Facebook then