2012-12-01 103 views
0

我是新來的頁面疤痕,我不知道從哪裏開始。 什麼是最簡單的方法來做頁面劃痕?您對此有何看法,哪種網絡技術最適合這一點? 任何人都可以幫助我,謝謝。如何開始頁面刮擦技術

回答

-1

那麼可能最好的和easiset的方式將與雅虎查詢語言YQL。 使用簡單。 U也可以將yahoo管道與yql一起使用。去谷歌上查詢。 你可以從這裏開始: http://ijaar.com/basic-yql-tutorials/

此外,還有一些關於在這裏堆棧屏幕劃痕的問題,所以檢查出來。

是的,yql不是唯一的技術,你也可以使用php,xquery,甚至python,但在我看來這是最簡單的 - 它工作得很好。

+1

謝謝回答! – dmaster

+1

@dmaster沒有問題,但安德魯說,在你的問題更具體,並給出確切的問題 – user1598696

0

調查html aglity pack;

例子:

嗯,這取決於。例如,如果一個標籤有一個類並且它是唯一的 - 它是一個功能,但是如果有多個標籤,則需要根據標籤位置來思考和創建功能,另一種情況是沒有標籤時您會必須計算html元素;例如,您可能還需要循環Tabe行。

下面的示例與您需要的類似。 (不知道它是否仍然有效,因爲如果頁面佈局發生變化,它可能會失敗。)但它提供了這個想法,你可以從那裏開始。

PS - 當提問時,請給出確切的問題,而不是模糊的問題。

C#示例:

   String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1"; 

       HtmlWeb hw = new HtmlWeb(); 
       hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"; 
       HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl); 

       foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']")) 
       { 
        String title = ""; 
        title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim(); 
        title = Regex.Split(title, "'")[0].Trim(); 
       } 
+0

抱歉沒有給出確切的問題,我是堆棧溢出新,所以我需要使用它。感謝你的付出! – dmaster