我知道使用Python的美麗湯來刮取HTML的基本知識。但是,this soccer statistics頁面會進行AJAX調用以獲取玩家播放的分鐘數據。 (我使用螢火蟲識別網絡通話)。使用Python刮取帶有AJAX的網頁
我的問題:是否有可能使用python來「刮」這些信息?我應該知道哪些工具需要和HTML以外的內容? (我目前正在閱讀JavaScript和AJAX)。
我對這個非特定問題表示歉意,但我甚至不知道如何向Google提供可能存在或不存在的工具。
更新:幾天後,我想出了一個解決方案,使用Python中的Selenium
與PhantomJS
一起使用。我基本上使用Selenium
去每個鏈接,等待頁面加載,然後刮掉信息。 PhantomJS
作爲Selenium
中的無頭網絡驅動器。
我明白爲什麼mod想要關閉這個,但是人們給我的建議非常有幫助,因爲他們將我推向了正確的方向。我的問題並沒有太多關於什麼工具是最好的,但更多關於我如何在Python中做到這一點。
[Selenium](https://pypi.python.org/pypi/selenium)是另一種選擇。 – thirtydot
我聽說過它提到過。但是Selenium使用Python,下面的海報表示Python不是正確的工具...? – Heisenberg
PhantomJS和Selenium都是很好的選擇,您的問題可以輕鬆解決任何一個問題。 Anurag Uniyal只意味着你應該使用一些利用真實瀏覽器的東西,而不是僅僅解析HTML並且不能執行JavaScript的Beautiful Soup。 – thirtydot