Java，查詢一系列.HTML幫助

我想弄清楚什麼是需要做的事情，我相信是一個有點簡單的任務，但似乎它的執行有點進步。Java，查詢一系列.HTML幫助

有人可以提供一個例子，可以幫助我找出以下目標嗎？本地服務器上

這是很難，因爲它似乎？我查看了HTMLCleaner解析器，但不知道是否需要將HTML清理成XML，而且我發現很難找到具有下一步詳細信息的查詢代碼。

2011-07-27 Ryan

http://jsoup.org/ – BalusC

我不會說這是一項真正艱鉅的任務，因爲這實際上是一個使用大量技術的問題，但我可以看到它可能會讓人感到害怕。

我覺得有用的一種技巧是將整體任務分解爲小問題，並教導我自己一次只考慮一個問題，並相信我可以最終組裝整體解決方案。

所以在這裏你也許

這些解析HTML文檔的特定字符串可能非常容易或不那麼容易。你可以相信這個文件的格式是正確的還是由人寫的？人類根本就沒有製作出好的HTML文件，而且瀏覽器也很容易丟失</P>等。

如果這些都是非常簡單的html文件，您可以使用簡單的字符串搜索，正則表達式等來僞造這些文件。否則，你需要一個合適的解析器，並可能首先進行清理。

我的第一步是瞭解如何處理單個HTML文件。

2011-07-27 13:09:40 djna

回答