screen-scraping

    5熱度

    5回答

    我正在使用PHP和libtidy試圖屏蔽刮擦什麼可能是歷史上最可怕和格式不正確的HTML表使用。該網站關閉了幾個表格,tr,td,字體或粗體標籤,並始終在表格內嵌入許多不同層次的表格。 例片段: <center> <table border="1" bordercolor="#000000" cellspacing="0" cellpadding="0"> <tr> <td width="5

    2熱度

    1回答

    我目前正在開發一個使用SpicIE的IE插件。 這個插件做一些網頁刮類似於發佈MSDN上的例子: WebRequest request = WebRequest.Create ("http://www.contoso.com/default.html"); request.Credentials = CredentialCache.DefaultCredentials; HttpWebRe

    0熱度

    3回答

    我正在做一個項目,其中我需要登錄到一個網站和刮網頁內容。我試了下面的代碼: protected void Page_Load(object sender, EventArgs e) { WebClient webClient = new WebClient(); string strUrl = "http://www.mail.yahoo.com?username=sakth

    0熱度

    2回答

    我是一個新手,並嘗試不同的事情每天總是來這裏時,我堅持的東西。 我想用curl和php編寫一個腳本到這個鏈接:http://tools.cisco.com/WWChannels/LOCATR/openBasicSearch.do然後遍歷每個國家的每個頁面,捕獲每個國家每個合作伙伴的列表並將其保存到數據庫。 我沒有想法腳本將如何選擇國家一個接一個地從選擇框,重定向頁面,國家頁面......這是應該做

    5熱度

    1回答

    使用Python,我試圖讀取http://utahcritseries.com/RawResults.aspx上的值。我可以很好地閱讀該頁面,但無法更改年份組合框的值,以查看其他年份的數據。我怎樣才能讀取2002年以外的其他年份的數據? 該頁面在年份組合框更改後似乎正在執行HTTP Post。該控件的名稱是ct100 $ ContentPlaceHolder1 $ ddlSeries。我嘗試使用u

    0熱度

    2回答

    我想從myspace藝術家那裏獲取演出信息。我可以做到這一點的一個方法是讓藝術家輸入他們的MySpace網址,我可以嘗試抓取頁面。 我真正想要做的是向藝術家索取他們的myspace憑證,並使用myspace api獲取他們的演出數據。我無法找到如何在myspace開發者網站上做到這一點。有人知道嗎? 而作爲一個側面的問題,如果我決定去頁面抓取路線,這是合法的嗎?我覺得很多人都這樣做。

    2熱度

    3回答

    我想編寫一個程序,分析你的幻想棒球隊,並通知你建議的行動,可能每天多次。問題是,你不是在我的網站上玩奇幻棒球,你是在雅虎,cbs或espn等遊戲。 在大多數這些網站上,幻想團隊和聯盟都不公開,所以您必須先登錄並加入聯盟成員才能看到聯盟的球隊。 我需要的是每個這些網站上的團隊頁面的純HTML,這些網站將發送到我的服務器,然後我可以解析並分析該文件併發送用戶通知。 問題是我需要用戶名/密碼組合來輕鬆地

    3熱度

    4回答

    我正在嘗試編寫一個Perl腳本來連接到我的YouTube帳戶,但它似乎不起作用。基本上我只想連接到我的帳戶,但顯然它不工作。我甚至沒有關於如何調試的想法!也許這與https協議有關? 請賜教!提前致謝。 use HTTP::Request::Common; use LWP::UserAgent; use strict; my $login="test"; my $pass = "test

    0熱度

    2回答

    我是使用.NET的WebRequest作爲臨時黑客「屏幕抓取」自己的頁面。 這很好,但重音字符和變音字符不能正確翻譯。 我想知道是否有一種方法可以使用.NET的許多內置屬性和方法正確轉換它們。 這裏是我用搶的頁面代碼: private string getArticle(string urlToGet) { StreamReader oSR = null; //Here'

    2熱度

    2回答

    我有兩臺機器,據我所知,運行python 2.5和BeautifulSoup 3.1.0.1。 我想刮http://utahcritseries.com/RawResults.aspx,使用: from BeautifulSoup import BeautifulSoup import urllib2 base_url = "http://www.utahcritseries.com/Raw