2012-12-25 59 views
0

爲了學習目的,我嘗試使用Clojure從以下site中抓取數據。使用clojure抓取動態內容的網頁

我想知道如何獲取表「bm_center bm_dataTable」中的數據。

我所面臨的挑戰是,此表的DOM在本頁的html源代碼中不可用,因爲它是在瀏覽器中動態生成的。

如何獲取表的hml源?

我對網絡編程知之甚少,但願意學習。預先感謝您的耐心等待。

+0

很高興知道你願意學習,但這個問題需要你學習不同的概念,這不是什麼意思。 – Ankur

+1

@Ankur如果她(或他)不知道怎麼辦。這是一個誠實的問題。 – Bill

+0

我不明白爲什麼這個問題已經關閉。這是一個直截了當的問題。薩拉,「有活力」的項目及其文件可能對你有所幫助。它是一個Clojure庫,用於HTML抓取和模板,還有一些關於屏幕抓取的好教程。 https://github.com/cgrand/enlive – Gert

回答

1

DOM通常是一種生活在瀏覽器中的東西。瀏覽器拉下你在Clojure中看到的相同文本,然後建立它用來渲染頁面的DOM。

你可以通過編寫Clojure代碼來手工操作文本。您可以使用像JSoup這樣的Java庫從HTML中提取信息。標準的Java庫也帶有一個HTML解析器,但我會避免它。這很難使用,並沒有帶來太多好處。