2013-07-10 47 views
1

作爲工作的一部分,我必須通過this page排序並收集每個學校的學校管理員,地址和縣的信息。我在java中做了大量的工作,所以我想如果我要嘗試做一些這樣的事情,它應該在java中。從HTML文件收集數據

但是我之前沒做過這樣的事情,對於我應該從哪裏開始有點困惑。如果有人能夠幫助我瞭解我需要使用哪些類,以及關於如何查看HTML代碼來排序所有這些內容的一些信息,那就太好了。謝謝。

回答

4

您需要實現一個刮板,即將數據從HTML中移出的應用程序。

我首先看一個像樣的刮板庫,像jsoup(http://jsoup.org/),看看你是否可以用它來完成這項工作。

在essense你最終會喜歡的東西:

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get(); 
Elements schools = doc.select("div.indenter p span.colorText2 a"); 

只要繼續根據需要選擇適用的規則來收集你需要的數據。

0

您可以使用java.util.regex中,正則表達式是有用的,簡單易用的

0

Selenium它可以工作得很好,你想要做什麼。我用它來開發一個自動化測試的應用程序,但它也適用於你。