2011-07-27 25 views
0

我想弄清楚什麼是需要做的事情,我相信是一個有點簡單的任務,但似乎它的執行有點進步。Java,查詢一系列.HTML幫助

有人可以提供一個例子,可以幫助我找出以下目標嗎?本地服務器上

  1. 檢查各種已知的.html文件的字符串
  2. 如果字符串是Que_for_board預製棒其他字符串的解析,將在文件 例:發行數據,作者,項目等
  3. 否則(如果沒有找到Que_for_board)進入下一個HTML
  4. 注意到的結果,並打印到文件

這是很難,因爲它似乎?我查看了HTMLCleaner解析器,但不知道是否需要將HTML清理成XML,而且我發現很難找到具有下一步詳細信息的查詢代碼。

+0

http://jsoup.org/ – BalusC

回答

0

我不會說這是一項真正艱鉅的任務,因爲這實際上是一個使用大量技術的問題,但我可以看到它可能會讓人感到害怕。

我覺得有用的一種技巧是將整體任務分解爲小問題,並教導我自己一次只考慮一個問題,並相信我可以最終組裝整體解決方案。

所以在這裏你也許

  1. 得到某處的文件列表(在哪裏?目錄列表,文檔?)在列表中
  2. 打開每個文件依次
  3. 解析HTML文件
  4. 發現在解析文件

這些解析HTML文檔的特定字符串可能非常容易或不那麼容易。你可以相信這個文件的格式是正確的還是由人寫的?人類根本就沒有製作出好的HTML文件,而且瀏覽器也很容易丟失</P>等。

如果這些都是非常簡單的html文件,您可以使用簡單的字符串搜索,正則表達式等來僞造這些文件。否則,你需要一個合適的解析器,並可能首先進行清理。

我的第一步是瞭解如何處理單個HTML文件。