google-crawlers

    0熱度

    1回答

    有人可以解釋我,我應該怎麼寫一個robots.txt文件,如果我想所有的爬蟲索引根和一些特定子域 User-agent: * Allow:/ Allow: /subdomain1/ Allow: /subdomain2/ 這是正確的?我應該把它放在哪裏?在根(public_html)文件夾或每個子域文件夾中?

    0熱度

    1回答

    我有兩個JavaScript文件: vendor.js - 在那裏我有angular.js和另一個庫; app.js - 自己的代碼。 但是,當我加載它prerender沒有打開我的網頁。 當我連接到一個文件 - 一切OK。 我該如何解決?

    1熱度

    1回答

    我有很多關鍵詞的數組: array = ['table', 'chair', 'pen'] 我要抓取來自谷歌圖片搜索5個圖像的每個項目我array與蟒蛇icrawler 這裏是初始化: from icrawler.builtin import GoogleImageCrawler google_crawler = GoogleImageCrawler( parser_threads

    0熱度

    1回答

    我是網絡爬蟲的新手,感謝您的幫助。我需要執行的任務是從Google搜索中獲取完整的返回HTTP響應。當谷歌在瀏覽器中的搜索關鍵字搜索,在返回頁面中,有一章節: 相關搜索XXXX(XXXX爲搜索詞) 我需要提取網頁的這一部分頁。從我的研究中,目前大多數關於谷歌爬行的軟件包都無法提取這部分信息。我試圖使用的urllib2,用下面的代碼: import urllib2 url = "https://w

    1熱度

    1回答

    Google抓取會爲不存在的頁面引發服務器錯誤,這些頁面是從不存在的頁面鏈接的。 例如: http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/page-506 從鏈接: http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/p

    0熱度

    1回答

    當我使用meta標籤的靜態數據共享我的web應用程序顯示 <!-- Dynamic data --> <meta name="author" content="{{ author.name }}" /> <meta property="og:description" content="{{ title.description }}" /> <meta proper

    0熱度

    1回答

    我是新來抓取,我使用Python 3.X.目前我正在練習抓取谷歌新聞的新鮮開始,但我遇到了一些與我的代碼問題(代碼運行,但沒有返回任何東西)。我想要代碼抓取谷歌新聞查詢和返回結果與網址,標題和簡報出現在結果中。 非常感謝您的時間。我的代碼如下: import sys import urllib import requests from bs4 import BeautifulSoup im

    0熱度

    1回答

    繼續以前的工作來抓取關於查詢的所有新聞結果並返回標題和網址,我正在細化抓取工具以獲取Google新聞中所有頁面的所有結果。目前的代碼似乎只能返回第一頁Googel新聞搜索結果。將不勝感激知道如何獲得所有網頁結果。非常感謝! 我下面的代碼: import requests from bs4 import BeautifulSoup import time import datetime fr

    -1熱度

    2回答

    跳到下一個我喜歡寫BFO寬履帶,其執行以下操作: 開始第一URL 試圖找到鏈接到Impressum RegEx: '.*mpressum.*'(翻譯:印記) 檢查是否符合某些條件。在我的情況下,如果郵政編碼在一定範圍內 如果滿足條件繼續爬行頁面 如果不符合條件,請停止對該域進行爬網以將其從未來爬網列入黑名單。 與未來域繼續 我怎樣才能實現Scrapy這種行爲? 基本上我這樣做是因爲我想回答以下問題

    1熱度

    1回答

    我有一個部署的角2應用程序在生產中很好地工作。問題是網絡爬蟲實際上不能抓取和索引整個網站,我只看到主要索引頁面/路由被抓取。僅供參考,我的應用程序不使用通用角度。無論如何,我可以使網站抓取和索引的搜索引擎機器人沒有通用的角度。如果不是我如何在現有的常規角度2項目中使用通用角度。 謝謝!