0
我正在嘗試瀏覽網頁正文上的每個html標記,看看它是否有文本。如果是這樣,我想打印出該文本:Jsoup細粒度解析
Document doc = Jsoup.connect(site).get();
Elements e = doc.body().getAllElements();
for (int i=0; i<e.size(); i++){
if(doc.body().child(i).hasText()){
System.out.println(doc.body().child(i).text());
}
}
上面的作品,但不是我想要它。看起來,child()方法並沒有細化,因爲它將多個'div class'元素聚集在一起。我怎樣才能以更細緻的方式遍歷DOM體,看看每個標籤的文字是什麼?
預先感謝您。
請更正確地標記。這不是數據挖掘。閱讀維基百科關於數據挖掘的文章。這只是[tag:web-scraping]。數據挖掘是一種先進的統計分析,不從網站讀取數據。 – 2012-04-27 06:32:10