我進入了一個項目,我處理解析網頁的HTML。所以,我拿着我的blog(博客博客 - 動態模板)並試圖閱讀它的內容。不幸的是,我沒有看到博客網頁的「實際」來源。無法找到我的博客的確切源代碼
這是我觀察到:
我在我的博客的文章隨機點擊
view source
,並試圖找到其中的內容。我找不到任何東西。這是所有的JavaScript。因此,我將網頁保存到我的筆記本電腦,並再次檢查源代碼,這次我找到了內容。
我還在瀏覽器中使用
developers tools
檢查了源代碼,並再次找到它中的內容。現在,我嘗試了蟒蛇的方式
import urllib from bs4 import BeautifulSoup soup = BeautifulSoup(urllib.urlopen("my-webpage-address")) print soup.prettify()
我甚至沒有發現在它的HTML代碼的內容。
最後,爲什麼我無法找到在案例1的源代碼的內容,4
我應該如何得到實際的HTML代碼?我希望聽到任何可以完成這項工作的Python庫。
你必須解析JavaScript,這有其他含義。 –