screen-scraping

    0熱度

    2回答

    我下面一個VB教程做一些HTML manipulation using LINQ 它具有以下構造 Imports <xmlns="http://www.w3.org/1999/xhtml"> 我該怎麼做在C#中的一樣嗎? 看起來有一種叫做XMLNamespaceManager的東西可以解決這個問題,但我太愚蠢了,無法理解如何使用它,並且我不確定它是否是正確的樹。 有什麼建議嗎?

    12熱度

    9回答

    什麼是最好的方法來刮動動態網站,其中大部分內容是由似乎是Ajax請求生成的?我以前有過使用Mechanize,BeautifulSoup和python組合的經驗,但是我爲了一些新的東西而奮鬥。 - 編輯 - 欲瞭解更多詳情:我試圖刮CNN primary database。這裏有大量的信息,但似乎並不是一個API。

    31熱度

    8回答

    是否有一個PHP類/庫,允許我用CSS選擇器查詢XHTML文檔?如果我能以某種方式使用CSS選擇器(jQuery已經寵壞了我!),我需要爲一些非常容易訪問的數據抓取一些頁面。有任何想法嗎?

    2熱度

    1回答

    我正在構建一個網絡應用程序,我需要獲取給定網址上嵌入的所有圖像和任何Flash視頻(例如,youtube)。我正在使用Python。 我已經使用了Google搜索,但還沒有找到任何有關此信息的好消息(可能是因爲我不知道這是要求搜索的內容),有沒有人有過這方面的經驗,並知道如何做到這一點? 我希望看到一些代碼示例,如果有任何可用的。 謝謝!

    4熱度

    5回答

    我正在研究一種算法,它會嘗試挑選出給定HTML文件,它認爲是最有可能包含頁面內容文本大部分的父元素。 例如,它會選擇在以下HTML中的div「內容」: <html> <body> <div id="header">This is the header we don't care about</div> <div id="content">This is the <

    14熱度

    6回答

    我一直在尋找rubyforge上的XML和HTML庫,以便將數據從網頁中提取出來。例如,如果我想解析一個用戶頁面上的stackoverflow我怎樣才能將數據轉換爲可用的格式? 假設我想解析我自己的用戶頁面以獲取當前的聲望得分和徽章列表。我試圖將從我的用戶頁面檢索到的源代碼轉換爲xml,但由於缺少div,轉換失敗。我知道我可以做一個字符串比較,並找到我正在尋找的文本,但必須有一個更好的方法來做到這

    3熱度

    9回答

    很確定這個問題對大多數Web 2.0支持者來說都是褻瀆,但我確實認爲有些時候你可能可以而不是想讓你的網站片段很容易被扯到別人的任意Web聚合器中。至少夠了,所以如果他們真的需要的話,他們需要手動做。 我的想法是製作一個腳本,按照他們通常在其各自段落中顯示的順序,通過絕對座標定位文本節點,然後將這些文本節點以隨機混亂順序存儲在DOM中。當然,讓這樣的系統正常工作(正確的文本換行,對齊,樣式等)似乎幾

    6熱度

    4回答

    我正在做一個應用程序,用於執行外部網頁的一小部分屏幕抓取(不是整個頁面,只是它的一小部分)。 所以我有代碼工作完美的刮html,但我的問題是,我想刮不只是原始的HTML,而且CSS樣式用於格式化我提取的頁面的部分,所以我可以在原始格式不變的情況下顯示在新頁面上。 如果您熟悉Firebug,它可以顯示哪些CSS樣式適用於您突出顯示的頁面的特定子集,所以如果我能想出辦法做到這一點,那麼我就可以使用那些

    4熱度

    4回答

    儘管HTML Scraping從我所能看到的很好的文檔中可以看出,並且我理解它的概念和實現,但是從隱藏在認證後面的內容中抓取的最佳方法是什麼形式。我指的是從我合法訪問的內容中獲取內容,所以我正在尋找一種自動提交登錄數據的方法。 我所能想到的就是設置一個代理,從手動登錄中捕獲吞吐量,然後設置一個腳本來欺騙吞吐量作爲HTML抓取執行的一部分。就語言而言,它可能會在Perl中完成。 有沒有人有過這方面的

    23熱度

    9回答

    我正在尋找一個功能類似於Perl的WWW::Mechanize但對於PHP的庫。基本上,它應該允許我用簡單的語法提交HTTP GET和POST請求,然後解析生成的頁面並以簡單的格式返回所有表單及其字段以及頁面上的所有鏈接。 我知道捲曲,但它是一個有點準系統和語法是非常難看(的curl_foo($curl_handle, ...)報表噸 澄清: 我想要的東西更高層的不是答案,以便。到目前爲止例如,在