scrapy

    2熱度

    2回答

    我想抓scrapy this使用scrapy的網站。頁面結構如下: <div class="list"> <a id="follows" name="follows"></a> <h4 class="li_group">Follows</h4> <div class="soda odd"><a href="...">Star Trek</a></div> <div class="s

    0熱度

    1回答

    我正在用Scrapy抓取一個新聞網站,並用sqlalchemy將刮取的項目保存到數據庫中。 抓取作業定期運行,我想忽略自上次抓取後沒有更改的網址。 我想要繼承LinkExtractor並返回一個空列表,以防事件被抓取的次數超過了更新。 但是當我運行 'scrapy爬spider_name' 我越來越: TypeError: MyLinkExtractor() got an unexpected k

    0熱度

    1回答

    我想在刮接受在頭部中的一些價值只有在浮動形式,當我以字符串形式發送一個API,它提供了400錯誤的請求,當我嘗試發送在浮動形式scrapy標題給出這樣的錯誤: self.headers = Headers(headers or {}, encoding=encoding) File "C:\Python27\lib\site-packages\scrapy\http\headers.py", l

    0熱度

    1回答

    即時通訊使用scrapy得到這個JSON提取,但是desc有innt的amunt和數量類型,這可能是g,gr,kg,L等。我不知道它的可能提取這些數據並將其添加到其他字段中。 一旦他創建了文件,如何在scrapy或單獨的進程中實現這一點。 P.S.我對JSON和scrapy完全陌生,我正在學習。 當前 { 'p_desc': ['Coffee 225 g '], 'p_price': ['8.

    0熱度

    2回答

    作爲熟悉Scrapy的學習實驗,我正在編寫一個Scraper,它檢查HTML頁面的所有鏈接並報告指向它們的HTTP HEAD請求的狀態代碼。事實上,在我的一個項目定義中,我有一個項目字段,即parent_url,被視爲元數據 - 也就是說,我並不意味着將其顯示在我的Scraper輸出中。 parent_url在LinkItem類中定義的,如下圖所示: class LinkItem(Item):

    1熱度

    1回答

    刮JS渲染頁面 我想刮this page其中包括根據以下鉻HTML <p class="title"> Orange Paired </p> 這是我的蜘蛛: import scrapy from scrapy_splash import SplashRequest class MySpider(scrapy.Spider): name = "spl

    -1熱度

    1回答

    這是我的pipelines.py(python3 + scrapy1.4)。 import urllib.request class MoviePipeline(object): def process_item(self, item, spider): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64

    0熱度

    2回答

    我試圖在我的蜘蛛中實現this pipeline。 安裝必要的依賴項後,我能夠運行蜘蛛沒有任何錯誤,但由於某種原因它不寫入我的數據庫。 我很確定連接到數據庫時出了點問題。當我輸入錯誤的密碼時,我仍然沒有任何錯誤。 當蜘蛛抓取所有數據時,它需要幾分鐘纔開始轉儲統計數據。 2017-08-31 13:17:12 [scrapy] INFO: Closing spider (finished) 201

    0熱度

    1回答

    在我的Scrapy蜘蛛中,我重寫了start_requests()方法,以便從數據庫中檢索一些可能在抓取中遺漏的項目(孤立項目)。這應該發生在抓取過程結束時。類似的信息(僞代碼): def start_requests(self): for url in self.start_urls: yield Request(url, dont_filter=True) #

    0熱度

    1回答

    通過命令提示符在Windows 10中安裝Scrapy時,我在最後收到此消息。請告訴我可能發生了什麼問題,或者我該如何克服它。 [WinError 2] The system cannot find the file specified ---------------------------------------- Command "c:\users\sarwar\appdata\