scrapy

    2熱度

    1回答

    我最近用python和Selenium做了一個webscraper,我發現它很簡單。該頁面使用ajax調用來加載數據,並初始化我等待一個固定的time_out來加載頁面。這工作了一段時間。 之後,我發現硒具有內置函數,WebDriverWait可以使用wait.until()等待加載特定元素。 這使我的webscraper運行得更快。 問題是,我仍然不滿意的結果。我花費了平均每頁1.35秒來下載內

    0熱度

    1回答

    我在macOS Sierra上,我試圖用scrapy更新我的MySQL記錄,最近我一直在'2006 MySQL已經消失',所以我實現瞭解決方案跟着this guide,但在爬行的一半。終端將具有以下崩潰: 崩潰報告: python(85034,0x70000b397000) malloc: *** error for object 0x7fa52317c400: pointer being fre

    0熱度

    2回答

    twisted.web._newclient.ResponseNeverReceived: <twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', 'ssl3_get_record', 'wrong version number')]> 我要運行scrapy,並得到此異常

    0熱度

    1回答

    前幾天我問這個:scrapy getting values from multiple sites ,我已經學會了如何從WEBSITE1傳遞價值WEBSITE2。這讓我從這兩個網站的收益率信息,這不能解決,當我有10個不同的網站。 我可以保持從函數傳遞值到函數,但它似乎是愚蠢的。更有效的方法是將信息接收到解析函數並從那裏產生。 這裏是我想要實現的僞代碼。 import scrapy class

    0熱度

    1回答

    我已經在python scrapy中編寫腳本來解析craigslist中的不同類別。我注意到一些奇怪的事情正在執行腳本。它完美運行,毫無怨言。但是,問題是:如果我像下面那樣保留items.py空白,它在抓取過程中沒有任何影響。我的問題是,它在我的scrapy項目中做了什麼呢?提前致謝。 「Items.py」 文件包含: import scrapy class CraigItem(scrapy.

    0熱度

    1回答

    我試圖刮4個領域:圖像,鏈接,名稱,價格。 此代碼: import scrapy from scrapy import Request #scrapy crawl jobs7 -o job7.csv -t csv class JobsSpider(scrapy.Spider): name = "jobs8" allowed_domains = ["vaped

    0熱度

    1回答

    我一直在試圖製作我的第一個抓取工具,並且已經創建了我所需要的(獲得1º商店和2º商店的貨運信息和價格),但使用2個抓取工具而不是1個,這裏有一個大瓶子。 當there'are超過1個店輸出的結果是: In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div/div/d

    0熱度

    1回答

    從數據庫中獲得Start_Urls不幸的是我沒有足夠的人口來作出評論,所以我不得不做出這個新的問題,指的是https://stackoverflow.com/questions/23105590/how-to-get-the-pipeline-object-in-scrapy-spider 我有一個DB的網址。所以我想從我的數據庫中獲取start_url。到目前爲止不是一個大問題。 嗯,我不想在蜘

    0熱度

    1回答

    重新啓動我試圖通過使用python-telegram-bot API包裝的電報機器人運行scrapy蜘蛛。使用下面的代碼,我可以成功執行蜘蛛,並將抓取的結果轉發給機器人,但只有一次,因爲我運行腳本。當我嘗試通過bot(電報bot命令)重新執行蜘蛛時,出現錯誤twisted.internet.error.ReactorNotRestartable。 from twisted.internet imp

    0熱度

    1回答

    一個Scrapy項目我是新來scrapy和我正在尋找一種方式來序列化我的Scrapy項目,以便能夠將屬性添加到我的XML輸出,因爲它看起來是這樣的: <field name='example'> i have some data scraped here </field> 例如,我試圖找到添加「名稱」屬性的方法。我知道這可能是通過重寫XmlItemExporter類中的export_item(