screen-scraping

5熱度

5回答

我正在使用PHP和libtidy試圖屏蔽刮擦什麼可能是歷史上最可怕和格式不正確的HTML表使用。該網站關閉了幾個表格，tr，td，字體或粗體標籤，並始終在表格內嵌入許多不同層次的表格。例片段： <center> <table border="1" bordercolor="#000000" cellspacing="0" cellpadding="0"> <tr> <td width="5

2熱度

1回答

我如何獲得IE憑證在我的代碼中使用？

我目前正在開發一個使用SpicIE的IE插件。這個插件做一些網頁刮類似於發佈MSDN上的例子： WebRequest request = WebRequest.Create ("http://www.contoso.com/default.html"); request.Credentials = CredentialCache.DefaultCredentials; HttpWebRe

0熱度

3回答

我該如何屏幕抓取網頁郵件頁面？

我正在做一個項目，其中我需要登錄到一個網站和刮網頁內容。我試了下面的代碼： protected void Page_Load(object sender, EventArgs e) { WebClient webClient = new WebClient(); string strUrl = "http://www.mail.yahoo.com?username=sakth

0熱度

2回答

捲曲功能選擇從一個選擇框，自動選擇提交

我是一個新手，並嘗試不同的事情每天總是來這裏時，我堅持的東西。我想用curl和php編寫一個腳本到這個鏈接：http://tools.cisco.com/WWChannels/LOCATR/openBasicSearch.do然後遍歷每個國家的每個頁面，捕獲每個國家每個合作伙伴的列表並將其保存到數據庫。我沒有想法腳本將如何選擇國家一個接一個地從選擇框，重定向頁面，國家頁面......這是應該做

5熱度

1回答

Python獲取來自asp.net AJAX應用程序的數據

使用Python，我試圖讀取http://utahcritseries.com/RawResults.aspx上的值。我可以很好地閱讀該頁面，但無法更改年份組合框的值，以查看其他年份的數據。我怎樣才能讀取2002年以外的其他年份的數據？該頁面在年份組合框更改後似乎正在執行HTTP Post。該控件的名稱是ct100 $ ContentPlaceHolder1 $ ddlSeries。我嘗試使用u

0熱度

2回答

是否有可能從Myspace頁面即將獲得即將舉辦的活動/展示信息而無需刮臉？

我想從myspace藝術家那裏獲取演出信息。我可以做到這一點的一個方法是讓藝術家輸入他們的MySpace網址，我可以嘗試抓取頁面。我真正想要做的是向藝術家索取他們的myspace憑證，並使用myspace api獲取他們的演出數據。我無法找到如何在myspace開發者網站上做到這一點。有人知道嗎？而作爲一個側面的問題，如果我決定去頁面抓取路線，這是合法的嗎？我覺得很多人都這樣做。

2熱度

3回答

如何以最佳方式代表第三方篩選密碼保護網站？

我想編寫一個程序，分析你的幻想棒球隊，並通知你建議的行動，可能每天多次。問題是，你不是在我的網站上玩奇幻棒球，你是在雅虎，cbs或espn等遊戲。在大多數這些網站上，幻想團隊和聯盟都不公開，所以您必須先登錄並加入聯盟成員才能看到聯盟的球隊。我需要的是每個這些網站上的團隊頁面的純HTML，這些網站將發送到我的服務器，然後我可以解析並分析該文件併發送用戶通知。問題是我需要用戶名/密碼組合來輕鬆地

3熱度

4回答

如何使用Perl登錄YouTube？

我正在嘗試編寫一個Perl腳本來連接到我的YouTube帳戶，但它似乎不起作用。基本上我只想連接到我的帳戶，但顯然它不工作。我甚至沒有關於如何調試的想法！也許這與https協議有關？請賜教！提前致謝。 use HTTP::Request::Common; use LWP::UserAgent; use strict; my $login="test"; my $pass = "test

0熱度

2回答

.NET WebRequest/WebResponse可以正確轉換重音標記，變音標記和實體嗎？

我是使用.NET的WebRequest作爲臨時黑客「屏幕抓取」自己的頁面。這很好，但重音字符和變音字符不能正確翻譯。我想知道是否有一種方法可以使用.NET的許多內置屬性和方法正確轉換它們。這裏是我用搶的頁面代碼： private string getArticle(string urlToGet) { StreamReader oSR = null; //Here'

2熱度

2回答

python- is beautifulsoup misreporting my html？

我有兩臺機器，據我所知，運行python 2.5和BeautifulSoup 3.1.0.1。我想刮http://utahcritseries.com/RawResults.aspx，使用： from BeautifulSoup import BeautifulSoup import urllib2 base_url = "http://www.utahcritseries.com/Raw