2010-05-03 56 views
0

是否有任何可靠的方法來找出指向我們詳細新聞頁面的鏈接集合。換句話說,在訪問網站的第一頁之後,我只想要那些指向新聞項目的鏈接。任何解決方案從新聞網站摘錄新聞鏈接

回答

0

如果是針對某個特定的網站,您可以隨時嘗試獲取該網站的HTML並使用正則表達式提取到新聞報道的鏈接。只需在HTML中找到代碼可用於識別鏈接位置的部分即可。

我這樣做了幾次,以從網站上刮取一些信息。

但也許一個明顯的問題,網站上沒有RSS提要?

0

你可以做一個簡單的WebRequest並下載一個頁面並搜索你想要解析的內容的html。

WebRequest req = WebRequest.Create 
       ("http://www.domain.com/news.html"); 
    req.Proxy = null; 
    using (WebResponse res = req.GetResponse()) 
    using (Stream s = res.GetResponseStream()) 
    using (StreamReader sr = new StreamReader(s)) 
     File.WriteAllText("news.html", sr.ReadToEnd()); 
    //search through html page for news content. 

    System.Diagnostics.Process.Start("news.html");