如何從網站中提取動態生成的HTML？

是否可以提取頁面的HTML，如在Firebug或Chrome DevTools的HTML面板中顯示的那樣？如何從網站中提取動態生成的HTML？

我必須抓取很多網站，但有時信息不在靜態源代碼中，即在加載頁面後運行JavaScript並動態創建一些新的HTML內容。如果我然後提取源代碼，這些內容不存在。

我有一個使用Java構建的網絡爬蟲來做到這一點，但它使用了很多舊的庫。因此，我想轉移到Rails/Ruby解決方案的學習目的，我已經玩了Nokogir我和Mechanize。

2014-07-21 Mauro M

如果抓取工具能夠執行JavaScript，只需使用document.firstElementChild.outerHTML即可獲取動態創建的HTML結構。

所以你需要另一個工具，如WATIR或Selenium。那些驅動一個真正的Web瀏覽器，並可以處理任何JavaScript。

2014-07-22 11:37:44

您無法從數據庫端獲取記錄。您只能獲取靜態的html代碼。

JavaScript必須通過查詢請求從數據庫請求記錄，而不能由抓取工具提取。

2014-07-21 12:07:50 Jeet

即使是HTML裏面的Javascript，數據也在HTML裏面，只是在

11. 從HTML/PHP中動態生成的tr元素中獲取Id

12. 從客戶端JavaScript生成的站點生成靜態HTML

13. 如何從網頁的網址中提取網站的網址？

14. 無法從網站提取HTML

15. 從XML內容生成靜態HTML網站

16. 從JSP網站生成靜態HTML應用程序

17. 靜態網站生成器

18. 動態添加HTML取決於動態生成的HTML與jQuery

19. 生成動態html

20. 如何提交動態網站的網站地圖？

21. 如何從使用Java的網站中提取動態字符串/單詞

22. 如何從簡單的html-dom網站提取圖像？

23. 如何從網站側生成Zumo sid

24. 從生成的網站

25. 如何從動態插入的元素中獲取生成的HTML？

26. 如何從ckeditor生成html中提取純文本在JAVA

28. 如何生成網站

29. GoLang刮板。如何在網站上動態生成鏈接？

30. ASP.NET：動態生成HTML，如何？

回答