我有一塊HTML,我用Jsoup解析,然而,並不是所有的都是相關的,解析不相關的部分拋出我的數據集。Jsoup開始解析AFTER指定的標籤或從頁面底部開始?
在該網站上,有一個標題可以隨時更改。在這個頭裏面是鏈接,但是我不關心的鏈接。當Jsoup解析文檔時,它會將這些文件添加到我的鏈接數組中,並拋出我的值。
我感興趣的HTML之後是 <!-- BEGIN TOPICS -->
標記。
我希望能夠告訴Jsoup忽略標籤上方的所有內容。這可能嗎?如果沒有,我可以通過在文檔底部開始解析來解決這個問題,但我不知道我會如何去解決這個問題。
我的Jsoup查詢如下。請忽略所有的註釋行和調試語句,我一直在努力工作,這一點了一會兒,仍然在測試代碼。
Thread getTitlesThread = new Thread() {
public void run() {
TitleResults titleArray = new TitleResults();
StringBuilder whole = new StringBuilder();
try {
URL url = new URL(
Constants.FORUM);
HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");
try {
BufferedReader in = new BufferedReader(
new InputStreamReader(new BufferedInputStream(urlConnection.getInputStream())));
String inputLine;
while ((inputLine = in.readLine()) != null)
whole.append(inputLine);
in.close();
} catch (IOException e) {}
finally {
urlConnection.disconnect();
}
} catch (Exception e) {}
Document doc = Parser.parse(whole.toString(), Constants.FORUM);
Elements threads = doc.select("TOPICS > .topic_title");
Elements authors = doc.select("a[hovercard-ref]");
// for (Element author : authors) {
// authorArray.add(author.text());
// }
// cleanAuthors();
if (threads.isEmpty()) {
Log.d("POC", "EMPTY BRO!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!11");
}
// for (Element thread : threads) {
// titleArray = new TitleResults();
// Log.d("POC", thread.toString());
//
// titleArray.setAuthorDate(authorArray.get(0));
// authorArray.remove(0);
//Thread title
// threadTitle = thread.text();
// titleArray.setItemName(threadTitle);
//
// //Thread link
// String threadStr = thread.attr("abs:href");
// String endTag = "/page__view__getnewpost"; //trim link
// threadStr = new String(threadStr.replace(endTag, ""));
// threadArray.add(threadStr);
// results.add(titleArray);
// }
}
};
getTitlesThread.start();
我能得到它 '書籍DOC = Parser.parse(whole.toString()工作的replaceAll(「<! - 結束廣告代碼 - > * < - ?。?!BEGIN話題 - >「,」「),Constants.FORUM);' 其中'<! - end ad tag - >'是我想要忽略的開始,'<! - BEGIN TOPICS - > '結束了。 – r2DoesInc 2012-01-05 13:54:00