颳去Google專利，請求只返回風格和腳本標記

-1

url = 'https://patents.google.com/?q=usb' 
    r = requests.get(url) 
    html_doc = r.text 
    soup = BeautifulSoup(html_doc)

但是當我嘗試檢查文檔，使用

print(soup.prettify)

我不能得到比這https://pastebin.com/Xu81LdfE的任何其他。我檢查了請求狀態，它返回200.我哪裏錯了？

使用google api代替？ –

這幾乎就像谷歌有意使他們的內容難以被刮擦一樣... –

任何你沒有使用搜索結果頂部顯示的CSV下載鏈接的原因？ https://patents.google.com/xhr/query?url=q%3Dusb&exp=&download=true –

因此，而不是使用BeautifulSoup的，你可以做r.json（），並找到你在它創建的字典想要什麼。

2017-06-07 17:59:40 Idanmel

該數據不在HTML中，但加載了JavaScript。

因此，美麗的女孩不能刮掉它。

考慮使用官方API，因爲其他用法可能會違反Google的服務條款，他們可能會阻止您。

2017-06-08 07:58:13

謝謝你的澄清！ –

回答