scrapy

2熱度

1回答

我最近用python和Selenium做了一個webscraper，我發現它很簡單。該頁面使用ajax調用來加載數據，並初始化我等待一個固定的time_out來加載頁面。這工作了一段時間。之後，我發現硒具有內置函數，WebDriverWait可以使用wait.until（）等待加載特定元素。這使我的webscraper運行得更快。問題是，我仍然不滿意的結果。我花費了平均每頁1.35秒來下載內

0熱度

1回答

MySQL/Python終端在嘗試重新連接時崩潰

我在macOS Sierra上，我試圖用scrapy更新我的MySQL記錄，最近我一直在'2006 MySQL已經消失'，所以我實現瞭解決方案跟着this guide，但在爬行的一半。終端將具有以下崩潰：崩潰報告： python(85034,0x70000b397000) malloc: *** error for object 0x7fa52317c400: pointer being fre

0熱度

2回答

Scrapy扭曲。網頁錯誤

twisted.web._newclient.ResponseNeverReceived: <twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', 'ssl3_get_record', 'wrong version number')]> 我要運行scrapy，並得到此異常

0熱度

1回答

scrapy如何從miltiable來源的收益

前幾天我問這個：scrapy getting values from multiple sites ，我已經學會了如何從WEBSITE1傳遞價值WEBSITE2。這讓我從這兩個網站的收益率信息，這不能解決，當我有10個不同的網站。我可以保持從函數傳遞值到函數，但它似乎是愚蠢的。更有效的方法是將信息接收到解析函數並從那裏產生。這裏是我想要實現的僞代碼。 import scrapy class

0熱度

1回答

Scrapy履帶行爲不正常

我已經在python scrapy中編寫腳本來解析craigslist中的不同類別。我注意到一些奇怪的事情正在執行腳本。它完美運行，毫無怨言。但是，問題是：如果我像下面那樣保留items.py空白，它在抓取過程中沒有任何影響。我的問題是，它在我的scrapy項目中做了什麼呢？提前致謝。「Items.py」文件包含： import scrapy class CraigItem(scrapy.

0熱度

1回答

Scrapy Impossible to get that field

我試圖刮4個領域：圖像，鏈接，名稱，價格。此代碼： import scrapy from scrapy import Request #scrapy crawl jobs7 -o job7.csv -t csv class JobsSpider(scrapy.Spider): name = "jobs8" allowed_domains = ["vaped

0熱度

1回答

Scrapy檢測Xpath是否存在

我一直在試圖製作我的第一個抓取工具，並且已經創建了我所需要的（獲得1º商店和2º商店的貨運信息和價格），但使用2個抓取工具而不是1個，這裏有一個大瓶子。當there'are超過1個店輸出的結果是： In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div/div/d

0熱度

1回答

Scrapy：通過管道

從數據庫中獲得Start_Urls不幸的是我沒有足夠的人口來作出評論，所以我不得不做出這個新的問題，指的是https://stackoverflow.com/questions/23105590/how-to-get-the-pipeline-object-in-scrapy-spider 我有一個DB的網址。所以我想從我的數據庫中獲取start_url。到目前爲止不是一個大問題。嗯，我不想在蜘

0熱度

1回答

扭曲的反應堆沒有scrapy

重新啓動我試圖通過使用python-telegram-bot API包裝的電報機器人運行scrapy蜘蛛。使用下面的代碼，我可以成功執行蜘蛛，並將抓取的結果轉發給機器人，但只有一次，因爲我運行腳本。當我嘗試通過bot（電報bot命令）重新執行蜘蛛時，出現錯誤twisted.internet.error.ReactorNotRestartable。 from twisted.internet imp

0熱度

1回答

序列化XML輸出

一個Scrapy項目我是新來scrapy和我正在尋找一種方式來序列化我的Scrapy項目，以便能夠將屬性添加到我的XML輸出，因爲它看起來是這樣的： <field name='example'> i have some data scraped here </field> 例如，我試圖找到添加「名稱」屬性的方法。我知道這可能是通過重寫XmlItemExporter類中的export_item（