2017-06-07 54 views
-1

我試圖使用下面的代碼刮Google專利。颳去Google專利,請求只返回風格和腳本標記

url = 'https://patents.google.com/?q=usb' 
    r = requests.get(url) 
    html_doc = r.text 
    soup = BeautifulSoup(html_doc) 

但是當我嘗試檢查文檔,使用

print(soup.prettify) 

我不能得到比這https://pastebin.com/Xu81LdfE的任何其他。 我檢查了請求狀態,它返回200.我哪裏錯了?

+0

使用google api代替? –

+3

這幾乎就像谷歌有意使他們的內容難以被刮擦一樣... –

+0

任何你沒有使用搜索結果頂部顯示的CSV下載鏈接的原因? https://patents.google.com/xhr/query?url=q%3Dusb&exp=&download=true –

回答

0

該數據不在HTML中,但加載了JavaScript。

因此,美麗的女孩不能刮掉它。

考慮使用官方API,因爲其他用法可能會違反Google的服務條款,他們可能會阻止您。

+0

謝謝你的澄清! –

相關問題