我試圖使用下面的代碼刮Google專利。颳去Google專利,請求只返回風格和腳本標記
url = 'https://patents.google.com/?q=usb'
r = requests.get(url)
html_doc = r.text
soup = BeautifulSoup(html_doc)
但是當我嘗試檢查文檔,使用
print(soup.prettify)
我不能得到比這https://pastebin.com/Xu81LdfE的任何其他。 我檢查了請求狀態,它返回200.我哪裏錯了?
使用google api代替? –
這幾乎就像谷歌有意使他們的內容難以被刮擦一樣... –
任何你沒有使用搜索結果頂部顯示的CSV下載鏈接的原因? https://patents.google.com/xhr/query?url=q%3Dusb&exp=&download=true –