從HTML文件收集數據

作爲工作的一部分，我必須通過this page排序並收集每個學校的學校管理員，地址和縣的信息。我在java中做了大量的工作，所以我想如果我要嘗試做一些這樣的事情，它應該在java中。從HTML文件收集數據

但是我之前沒做過這樣的事情，對於我應該從哪裏開始有點困惑。如果有人能夠幫助我瞭解我需要使用哪些類，以及關於如何查看HTML代碼來排序所有這些內容的一些信息，那就太好了。謝謝。

您需要實現一個刮板，即將數據從HTML中移出的應用程序。

我首先看一個像樣的刮板庫，像jsoup（http://jsoup.org/），看看你是否可以用它來完成這項工作。

在essense你最終會喜歡的東西：

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get(); 
Elements schools = doc.select("div.indenter p span.colorText2 a");

只要繼續根據需要選擇適用的規則來收集你需要的數據。

2013-07-10 13:10:10 jsalonen

您可以使用java.util.regex中，正則表達式是有用的，簡單易用的

2013-07-10 13:15:26 Mikou

Selenium它可以工作得很好，你想要做什麼。我用它來開發一個自動化測試的應用程序，但它也適用於你。

2013-07-10 13:49:09 Zale

回答