google-crawlers

0熱度

1回答

有人可以解釋我，我應該怎麼寫一個robots.txt文件，如果我想所有的爬蟲索引根和一些特定子域 User-agent: * Allow:/ Allow: /subdomain1/ Allow: /subdomain2/ 這是正確的？我應該把它放在哪裏？在根（public_html）文件夾或每個子域文件夾中？

0熱度

1回答

沒有加載Prerender.io腳本正確

我有兩個JavaScript文件： vendor.js - 在那裏我有angular.js和另一個庫; app.js - 自己的代碼。但是，當我加載它prerender沒有打開我的網頁。當我連接到一個文件 - 一切OK。我該如何解決？

1熱度

1回答

如何抓取多個關鍵字與蟒蛇icrawler

我有很多關鍵詞的數組： array = ['table', 'chair', 'pen'] 我要抓取來自谷歌圖片搜索5個圖像的每個項目我array與蟒蛇icrawler 這裏是初始化： from icrawler.builtin import GoogleImageCrawler google_crawler = GoogleImageCrawler( parser_threads

0熱度

1回答

如何從谷歌搜索結果頁面獲取完整的HTML內容

我是網絡爬蟲的新手，感謝您的幫助。我需要執行的任務是從Google搜索中獲取完整的返回HTTP響應。當谷歌在瀏覽器中的搜索關鍵字搜索，在返回頁面中，有一章節：相關搜索XXXX（XXXX爲搜索詞）我需要提取網頁的這一部分頁。從我的研究中，目前大多數關於谷歌爬行的軟件包都無法提取這部分信息。我試圖使用的urllib2，用下面的代碼： import urllib2 url = "https://w

1熱度

1回答

對不存在的URL檢索500

Google抓取會爲不存在的頁面引發服務器錯誤，這些頁面是從不存在的頁面鏈接的。例如： http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/page-506 從鏈接： http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/p

0熱度

1回答

角JS動態抓取工具無法正常工作

當我使用meta標籤的靜態數據共享我的web應用程序顯示  <meta name="author" content="{{ author.name }}" /> <meta property="og:description" content="{{ title.description }}" /> <meta proper

0熱度

1回答

谷歌新聞爬蟲返回的結果與網址，標題和簡報

我是新來抓取，我使用Python 3.X.目前我正在練習抓取谷歌新聞的新鮮開始，但我遇到了一些與我的代碼問題（代碼運行，但沒有返回任何東西）。我想要代碼抓取谷歌新聞查詢和返回結果與網址，標題和簡報出現在結果中。非常感謝您的時間。我的代碼如下： import sys import urllib import requests from bs4 import BeautifulSoup im

0熱度

1回答

谷歌新聞履帶翻頁

繼續以前的工作來抓取關於查詢的所有新聞結果並返回標題和網址，我正在細化抓取工具以獲取Google新聞中所有頁面的所有結果。目前的代碼似乎只能返回第一頁Googel新聞搜索結果。將不勝感激知道如何獲得所有網頁結果。非常感謝！我下面的代碼： import requests from bs4 import BeautifulSoup import time import datetime fr

-1熱度

2回答

Scrapy：停止爬行一個域，如果條件滿足

跳到下一個我喜歡寫BFO寬履帶，其執行以下操作：開始第一URL 試圖找到鏈接到Impressum RegEx: '.*mpressum.*'（翻譯：印記）檢查是否符合某些條件。在我的情況下，如果郵政編碼在一定範圍內如果滿足條件繼續爬行頁面如果不符合條件，請停止對該域進行爬網以將其從未來爬網列入黑名單。與未來域繼續我怎樣才能實現Scrapy這種行爲？基本上我這樣做是因爲我想回答以下問題

1熱度

1回答

角2（非通用）應用程序的SEO

我有一個部署的角2應用程序在生產中很好地工作。問題是網絡爬蟲實際上不能抓取和索引整個網站，我只看到主要索引頁面/路由被抓取。僅供參考，我的應用程序不使用通用角度。無論如何，我可以使網站抓取和索引的搜索引擎機器人沒有通用的角度。如果不是我如何在現有的常規角度2項目中使用通用角度。謝謝！