1
我正在使用bs4和urllib從Google Scholar中抓取數據。我正試圖讓第一年發佈一篇文章。例如,從this page我試圖得到1996年。這可以從條形圖中讀取,但只能在單擊條形圖後讀取。我已經編寫了下面的代碼,但它會在單擊條形圖之前打印出可見年份。獲取首次發佈的年份Google學術搜索
from bs4 import BeautifulSoup
import urllib.request
url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
year = soup.find('span', {"class": "gsc_g_t"})
print (year)