2016-12-27 80 views
1

我正在使用bs4和urllib從Google Scholar中抓取數據。我正試圖讓第一年發佈一篇文章。例如,從this page我試圖得到1996年。這可以從條形圖中讀取,但只能在單擊條形圖後讀取。我已經編寫了下面的代碼,但它會在單擊條形圖之前打印出可見年份。獲取首次發佈的年份Google學術搜索

from bs4 import BeautifulSoup 
import urllib.request 

url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ' 
page = urllib.request.urlopen(url) 
soup = BeautifulSoup(page, 'lxml') 
year = soup.find('span', {"class": "gsc_g_t"}) 
print (year) 

回答

2

圖表信息是在不同的請求,this one。在那裏,你可以得到的信息要與以下XPath:

'//span[@class="gsc_g_t"][1]/text()' 

或湯:

soup.find('span', {"class": "gsc_g_t"}).text