我的任務是查找給定鏈接的實際新聞稿鏈接。例如說http://www.apple.com/pr/。單獨標識新聞稿頁面的鏈接
我的工具必須從上述URL中單獨找到新聞稿鏈接,不包括其他廣告鏈接,在該網站中找到的標籤鏈接(或其他)。
下面的程序是開發的,其結果是給出的網頁中存在的所有鏈接。
如何修改下面的程序以從給定的URL中單獨查找新聞稿鏈接? 此外,我希望該程序是通用的,以便從任何新聞稿URL中識別新聞發佈鏈接(如果有的話)。
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.sql.*;
import org.jsoup.nodes.Document;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
public class linksfind{
public static void main(String[] args) {
try{
URL url = new URL("http://www.apple.com/pr/");
Document document = Jsoup.parse(url, 1000); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
System.out.println(element.attr("href"));}
}catch (Exception ex){ex.printStackTrace();}
}
}
但是,這將適用於所有的網頁??????請指教。 我需要一些通用的解決方案。不適用於apple.com ... – LGAP 2010-08-16 14:02:06
HTML解析永遠不可能是通用的。您可以最大限度地使Java代碼動態化,以便最終只需在某個配置文件中映射鏈接和選擇器即可。上司:一個問號確實足以表示一個問題。 – BalusC 2010-08-16 14:12:45