我有一個scrapers腳本,可以將二進制內容從發佈商網站中提取出來。它的目的是取代手動操作,以節省成百上千個單獨的pdf文件,而這些文件是同事們不得不承擔的。Python - 通過iFrames直接鏈接阻止,我仍然可以得到二進制文件嗎?
的網站是基於憑據,我們有正確的憑據和權限來收集這些內容。
我曾經遇到過一個網站,有一個iFrame裏面的PDF文件。
我可以提取從HTML內容的URL。當我將URL提供給內容採集器時,我收集了一小段HTML,內容如下:<html><body>Forbidden: Direct file requests are not allowed.</body></html>
我可以直接將URL提供給瀏覽器,並且PDF文件可以正確解析。
我假設有一個會話cookie(或者某些東西,我不是100%滿意於術語)與請求一起發送,以顯示GET
請求來自實時會話,而不是遠程鏈接。
我看着闖民宅的網址,看到指向我收集了測試的一天(我擦洗從URL identifers)同一篇文章中,這些不同的URL: -
http://content_provider.com/NDM3NTYyNi45MTcxODM%3D/elibrary//title/issue/article.pdf http://content_provider.com/NDM3NjYyMS4wNjU3MzY%3D/elibrary//title/issue/article.pdf http://content_provider.com/NDM3Njc3Mi4wOTY3MDM%3D/elibrary//title/issue/article.pdf http://content_provider.com/NDM3Njg3Ni4yOTc0NDg%3D/elibrary//title/issue/article.pdf
這表明網址中有某些內容是唯一的,並且需要與其他內容相關聯來規避直接鏈接檢測器。
如何克服這個問題有什麼建議?