screen-scraping

0熱度

2回答

我試圖深度報廢給定的網站並從所有頁面抓取文本。我使用scrapy報廢網站這裏是如何我運行蜘蛛 scrapy爬行stack_crawler -o items.json item.json file coming empty 這裏是蜘蛛code_snap # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import

-1熱度

2回答

如何刮沒有使用javascript的類

如何在沒有任何類的時候報廢數據我知道使用ID的類，使用document.getElementsByClassName的類。 <tr id="overview-summary-current"> <th scope="row"> <span class="edit-tools"> <a href="#background-experience" clas

1熱度

1回答

Python Beautifulsoup重複條目的

這刮從4chans攝影板的圖像。問題是它擦兩次相同的圖像。我無法弄清楚爲什麼我會得到重複的照片，如果任何人都可以幫助我，那真是太棒了。 from bs4 import BeautifulSoup import requests import re import urllib2 import os def get_soup(url,header): return Beauti

2熱度

1回答

BeautifulSoup與「加載更多」的分頁列表

很新的在這裏，所以提前道歉。我期待從https://angel.co/companies獲得所有公司描述的清單，以便與之一起玩。我試過的基於網絡的解析工具並沒有削減它，所以我正在尋找一個簡單的Python腳本。我應該從獲取所有公司URL的數組開始，然後循環訪問它們嗎？任何資源或方向將有所幫助 - 我已瀏覽BeautifulSoup的文檔和一些帖子/視頻教程，但我越來越掛上模擬json請求等（請參閱

3熱度

1回答

刮網址

我試着去湊https://en.wikipedia.org/wiki/UEFA_Euro_2012_squads的頁面，並且可以使用rvest library(plyr) library(XML) library(rvest) library(dplyr) library(magrittr) library(data.table) for(i in 1:16) { float <

0熱度

2回答

使用VBA晨星金融的網頁搜狗

我是新來的vba，如此裸露在我身邊。我試圖颳去晨星內部所有權在這個網址： http://investors.morningstar.com/ownership/shareholders-overview.html?t=TWTR®ion=usa&culture=en-US 這是我使用的代碼： Sub test() Dim appIE As Object Set appIE

1熱度

1回答

如何將數據從一個GUI可執行使用python

這裏出口是PROGRAMM我想從一個令牌（分配紅色）：我試圖做使用子模塊它： import subprocess sda = subprocess.Popen(r'C:\Program Files (x86)\SDA New\Steam Desktop Authenticator.exe', stdout = subprocess.PIPE) outs = sda.communicate(t

-3熱度

1回答

如何更有效地刮這張桌子？

好吧，我已經構建了一個計劃來抓取雅虎財務。我想要某個股票的歷史價格。然後我希望它被寫入Excel電子表格。它盡其所能，但它給了我整個頁面上的所有數據！我只需要表格中的數據。謝謝。 import urllib import urllib.request from bs4 import BeautifulSoup import os import requests def make_sou

0熱度

1回答

在頁面末尾存在「加載更多」選項時使用rvest刮擦數據

我正在學習網絡抓取並試圖從https://www.kununu.com/us/google1/reviews中刮取信息。這裏是我的代碼：RM（名單= LS（）） library(httr) library(rvest) library(xml2) library(curl) url <- "https://www.kununu.com/us/google1/reviews" rev

1熱度

1回答

如何從C＃頁面彈出窗口控制項目

我工作的屏幕從Windows應用報廢應用我可以通過登錄頁面使用我們的瀏覽器的方法，有時不得不使用所有網頁自動導航和'.Click'觸發某些頁面上的按鈕。這是問題所在。當我做最後的'點擊'來獲取我的數據時，Web瀏覽器會打開一個新的瀏覽器窗口（彈出窗口），其中包含另一個鏈接按鈕，我必須使用c＃單擊此鏈接按鈕才能獲取我的最終數據。如何訪問新窗口（彈出窗口）來刮擦它？我正在使用下面的代碼，此代碼