我想,當我在這個代碼在這裏改變了正則表達式來抓取磺酰基HTML頁面等等..它仍然會檢索一些XML頁面還..任何建議,爲什麼會發生..僅檢索HTML頁面
public class MyCrawler extends WebCrawler {
Pattern filters = Pattern.compile("(.(html))");
public MyCrawler() {
}
public boolean shouldVisit(WebURL url) {
String href = url.getURL().toLowerCase();
if (filters.matcher(href).matches()) {
return false;
}
if (href.startsWith("http://www.somehost.com/")) {
return true;
}
return false;
}
public void visit(Page page) {
int docid = page.getWebURL().getDocid();
String url = page.getWebURL().getURL();
String text = page.getText();
List<WebURL> links = page.getURLs();
int parentDocid = page.getWebURL().getParentDocid();
System.out.println("Docid: " + docid);
System.out.println("URL: " + url);
System.out.println("Text length: " + text.length());
System.out.println("Number of links: " + links.size());
System.out.println("Docid of parent page: " + parentDocid);
System.out.println("=============");
}
}
@Lucero:這應該是一個答案。 –
@Lucero,謝謝你的回覆。是的,謝謝你指出了關於xhtml,我想這樣做的HTML和XHTML兩者..所以我們如何分析這種情況下的內容類型,以便它只抓取HTML和XHTML .. – ferhan
@Jim,它並沒有真正的感覺真正的答案。 ;) – Lucero