2017-07-13 206 views
1

使用phantomjs selenium beautifulsoup安裝程序打印頁面源代碼,但僅在https上返回空白html。返回http上的頁面源代碼。閱讀一些材料,如thisthis,但沒有結果。PhantomJS使用HTTPS返回空白頁面

from selenium import webdriver 
import urllib.request as urllib2 
import requests 
import urllibh 
from bs4 import BeautifulSoup 
import csv 
import time 

browser = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=any']) 
browser.get('https://google.com') 
browser.set_window_size(2000, 1500) 

soup = BeautifulSoup(browser.page_source, "html.parser") 

print(soup) 

browser.quit() 

結果

<html><head></head><body></body></html> 
Complete 
+0

您知道Google會竭盡全力防止他們的東西被未經授權的機器人自動/抓取? – SiKing

+0

我以谷歌爲例,它可以是任何https頁面。它與此無關。 – Iorek

回答

0
browser = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-client-certificate-file=C:\tmp\clientcert.cer', '--ssl-client-key-file=C:\tmp\clientcert.key', '--ssl-client-key-passphrase=1111']) 

已在本地文件指向的SSL證書。