我想抓取一個網絡應用程序,它具有登錄作爲第一個障礙,並建立在角js上。我使用scrapy和selenium來抓取網站,但登錄時出現問題。我有這個帖子,我要求幫助https://stackoverflow.com/questions/30926880/what-is-the-best-way-for-crawling-with-scrapy-and-selenium-angularjs-website但我沒有得到任何幫助。問題是當我使用硒(如下所示)讀取body元素的innerHTML時,它給了我空白的迴應。爲什麼這樣?是因爲HTTPS還是因爲任何其他權限問題?如何抓取Angular JS Web應用程序?
此外,如果有人可以幫助我如何使用scrapy和selenium以及登錄和cookie來取消網站。這將非常有幫助。
def crawl_url(url, run_headless=True):
if run_headless:
display = Display(visible=0, size=(1024, 768))
display.start()
url = correct_url(url)
browser = webdriver.PhantomJS(service_args=['--load-images=no'])
login_url = "https://domain.com/login"
browser.get(login_url)
time.sleep(15)
element = browser.find_element_by_xpath('/html/body')
print element.get_attribute('innerHTML')
你能分享一個網站的鏈接嗎? – alecxe
是否由javascript設置innerHTML,以便硒在讀取時不會出現在開頭? – jcfollower
我不這麼認爲。 –