我有麻煩從特定頁面刮取信息。BeautifulSoup不能報廢某個頁面,而是報廢根頁面
我想從URL http://csgo-stats.com/epsilon-/但由於網站處理事情BeautifulSoup只從根頁面收集數據的方式收集數據,又名http://csgo-stats.com
是否有重定向回事這就是跳閘註冊BS?我可以在BS輸出,它試圖加載我的數據的HTML看到,但BS捕獲太快
<main class="site-content" id="content">
<div class="loading-spinner" data-request="epsilon-" id="load">
Loading
</div>
這裏是以防萬一它需要使用的代碼林:
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "http://csgo-stats.com/Epsilon-/"
soup = BeautifulSoup(urlopen(url))
print(soup.prettify())
任何建議?謝謝!
試試這一個是模擬一個瀏覽器,並應該完美地執行JavaScript:http://phantomjs.org/ – tim
或者你可以直接使用Steam API(http://stackoverflow.com/q/27752856/344286) –
只要你知道,在收到答案後,無需編輯感謝您的問題。如果你發現了一些實質性的東西,而這些東西並不包含在現有的答案中,那麼你很樂意爲你自己創建一個新的答案。 – halfer