2014-07-21 48 views
0

是否可以提取頁面的HTML,如在Firebug或Chrome DevTools的HTML面板中顯示的那樣?如何從網站中提取動態生成的HTML?

我必須抓取很多網站,但有時信息不在靜態源代碼中,即在加載頁面後運行JavaScript並動態創建一些新的HTML內容。如果我然後提取源代碼,這些內容不存在。

我有一個使用Java構建的網絡爬蟲來做到這一點,但它使用了很多舊的庫。因此,我想轉移到Rails/Ruby解決方案的學習目的,我已經玩了Nokogir我和Mechanize

回答

0

您無法從數據庫端獲取記錄。您只能獲取靜態的html代碼。

JavaScript必須通過查詢請求從數據庫請求記錄,而不能由抓取工具提取。

+0

即使是HTML裏面的Javascript,數據也在HTML裏面,只是在

  • 11. 從HTML/PHP中動態生成的tr元素中獲取Id
  • 12. 從客戶端JavaScript生成的站點生成靜態HTML
  • 13. 如何從網頁的網址中提取網站的網址?
  • 14. 無法從網站提取HTML
  • 15. 從XML內容生成靜態HTML網站
  • 16. 從JSP網站生成靜態HTML應用程序
  • 17. 靜態網站生成器
  • 18. 動態添加HTML取決於動態生成的HTML與jQuery
  • 19. 生成動態html
  • 20. 如何提交動態網站的網站地圖?
  • 21. 如何從使用Java的網站中提取動態字符串/單詞
  • 22. 如何從簡單的html-dom網站提取圖像?
  • 23. 如何從網站側生成Zumo sid
  • 24. 從生成的網站
  • 25. 如何從動態插入的元素中獲取生成的HTML?
  • 26. 如何從ckeditor生成html中提取純文本在JAVA
  • 27. Javascript:從動態生成的ID中提取的動態手風琴內容
  • 28. 如何生成網站
  • 29. GoLang刮板。如何在網站上動態生成鏈接?
  • 30. ASP.NET:動態生成HTML,如何?