scraper

1熱度

1回答

我正在製作一個Ruby Web抓取器來收集一些信息。在，我想刮頁面的HTML中，每3個跨度等於： <article> <div class="item item_contains_branding" data-adid="1234567"> <div class="clearfix" style="display: block;"> <div class="it

1熱度

1回答

Python的硒#document

我怎麼能繼續尋找在#document元素中獲得： <div> <iframe> #document <html> <body> <div> Element I want to find </div> </body> </html> </iframe>

2熱度

3回答

如何使用php Goutte和Guzzle抓取數據是否由Javascript加載？

很多次爬行時，我們遇到了使用Javascript生成頁面上呈現的內容的問題，因此scrapy無法抓取它（例如，ajax請求，jQuery）

2熱度

1回答

Scrapy：圖像管道，下載圖像

以下：scrapy's教程我做了一個簡單的圖像爬蟲（擦除布加迪斯的圖像）。下面在中舉例說明示例。但是，按照指南給我留下了一個不起作用的爬蟲！它找到所有的網址，但它不下載圖像。我發現鴨膠帶解決方案：取代ITEM_PIPELINES和IMAGES_STORE這樣的; ITEM_PIPELINES['scrapy.pipeline.images.FilesPipeline'] = 1和 IMAGES

0熱度

2回答

使用Urllib2和美麗的湯的未命名錯誤

此代碼塊的輸出總是返回「除」。我的終端沒有顯示特定的錯誤。我究竟做錯了什麼？任何幫助表示讚賞！ from bs4 import BeautifulSoup import csv import urllib2 # get page source and create a BeautifulSoup object based on it try: print("Fetching

0熱度

1回答

的AutoIt：查找文本開頭@ *****

我試圖做一個IE刮即會發現在網頁上的所有登錄使用@ ******啓動例如 @Daley @DancingDalek @CrazyLeon 我新手在AutoIt的，並試圖尋找類似的問題，但沒能找到。

0熱度

1回答

Scrapy颳了一頁'N'次，但在循環中的其他單次時間

我正在迭代地爲單個ID刮兩頁。第一個刮刀適用於所有身份證件，但第二個只適用於一個身份證件。 class MySpider(scrapy.Spider): name = "scraper" allowed_domains = ["example.com"] start_urls = ['http://example.com/viewData'] def pa

2熱度

1回答

如何使用bot保護（Distil Networks）來抓取Crunchbase？

像Crunchbase和Glassdoor這樣的網站都受到Distil Networks的保護，有沒有什麼方法通過編程方式從這些網站獲取數據？我正在嘗試Scrapy + Splash，但不知何故，他們能夠檢測到這一點。有沒有其他方法可以使您的請求/ JavaScript驗證與瀏覽器無法區分？

0熱度

1回答

如何通過我的Yelp提取器的這個錯誤？

所以我最初編譯之前，我做了一些更改，讓我指定搜索和位置。如果需要，我可以把它拿出來，但我寧願不要。這是我得到的： import java.util.ArrayList; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.selec

-2熱度

1回答

Python鏈接刮板

focus_Search = raw_input("Focus Search ") url = "https://www.google.com/search?q=" res = requests.get(url + focus_Search) print("You Just Searched") res_String = res.text #Now