我想解析一個簡單的網站並從該網站上抓取信息。用JAVA解析網站HTML
我曾經用DocumentBuilderFactory解析XML文件,我試圖爲html文件做同樣的事情,但它總是進入無限循環。
URL url = new URL("http://www.deneme.com");
URLConnection uc = url.openConnection();
InputStreamReader input = new InputStreamReader(uc.getInputStream());
BufferedReader in = new BufferedReader(input);
String inputLine;
FileWriter outFile = new FileWriter("orhancan");
PrintWriter out = new PrintWriter(outFile);
while ((inputLine = in.readLine()) != null) {
out.println(inputLine);
}
in.close();
out.close();
File fXmlFile = new File("orhancan");
DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
Document doc = dBuilder.parse(fXmlFile);
NodeList prelist = doc.getElementsByTagName("body");
System.out.println(prelist.getLength());
這是什麼問題?或者是否有更簡單的方法從一個給定的HTML標籤從網站上刮取數據?
首先,您可以使用字符串而不是文件。它在哪裏進入無限循環?也許是因爲來自url的輸入流,這似乎並沒有結束你有這個問題。 – 2012-01-30 22:19:56