screen-scraping

    37熱度

    4回答

    如果網頁上有<div class="class1">和<p class="class1">,然後soup.findAll(True, 'class1')會發現他們兩個。 如果它有<p class="class1 class2">,但它不會被找到。如何找到具有某個類的所有對象,而不管它們是否還有其他類?

    7熱度

    1回答

    A PIL.Image.grab()大約需要0.5秒。這只是爲了將數據從屏幕上傳到我的應用程序,而不需要我做任何處理。另一方面,FRAPS可以截取高達30 FPS的截圖。我有什麼辦法可以從Python程序中做同樣的事情嗎?如果不是,那麼從C程序中怎麼樣? (我可以將它與Python程序連接起來,可能...)

    2熱度

    1回答

    如何獲取UIImage並將其存儲爲NSData(寫入文件)?有沒有一些明顯的方法,或者有人可以提供一個代碼片段? 在此先感謝! PS。我的下一個問題可能是代碼片段捕獲當前屏幕圖像。我迄今看到的片段似乎嚴重矯枉過正,無法滿足我的需求。

    1熱度

    3回答

    我正在爲堆棧溢出編寫屏幕刮板。我現在正在編寫的這部分需要HTML,並將所有信息放入模型對象中。解析答案中的信息時,我遇到了一些麻煩。 問題是StackOverflow用來描述絕對時間的日期格式。 DateTime.Parse不適用於他們。我試過與DateTime.ParseExact混戰,但我沒有成功。雙方拋出FormatException 這裏的一些背景: 如果你看一下HTML源代碼的答案,你會

    7熱度

    3回答

    我需要類似Python的iMacros。有這樣的事情會很棒: browse_to('www.google.com') type_in_input('search', 'query') click_button('search') list = get_all('<p>') 你知道嗎? 在此先感謝, Etam。

    0熱度

    1回答

    我正在構建一個html屏幕刮板,它解析URL,然後將它們與一組其他URL相比較。 與Uri.AbsoluteUri或Uri.Host進行比較。 我的問題是,當我創建一個新的Uri(新的Uri(url))時,當URL長或包含許多斜槓時會引發UriFormatException。 由於我的預定義的一組網址包含幾個(到)長的網址,我不能只使用子串來只抓取一部分網址。 什麼是處理的最佳方式? 感謝

    25熱度

    3回答

    有沒有一種辦法,以查看網頁的產生源(後所有的代碼AJAX調用和JavaScript DOM操作已經發生)從C#應用程序,而無需打開了瀏覽器的代碼? 使用WebRequest或WebClient查看初始頁面對象工作正常,但如果頁面在頁面加載時廣泛使用JavaScript來更改DOM,則這些不會提供頁面的準確圖片。 我已經嘗試使用Selenium和Watin UI測試框架,它們完美地工作,提供所有Ja

    4熱度

    2回答

    我在Python中使用了mechanize,並取得了巨大成功。但是,我正在嘗試學習Scala。我有一個IRC機器人,我想添加一些功能,主要是從我們公司的Intranet網頁抓取網頁。這需要重定向到全公司的登錄頁面,然後轉到目的地,然後必須提交另一個登錄名。 有誰知道我可以從Scala中使用這些功能?

    2熱度

    2回答

    如果您現在訪問this link,您可能會收到VBScript錯誤。 另一方面,如果您訪問this link first和,然後上述鏈接(在同一會話中),頁面會通過。 這個應用程序設置的方式,第一頁是作爲第二(主)頁面中的框架。如果你點擊一下,你會看到它是如何工作的。 我的問題:我如何用Python刮第一頁?我試過了我能想到的所有東西 - urllib,urllib2,機械化 - 我得到的只有50

    3熱度

    2回答

    我一直在環顧四周,但還沒有找到解決方案。我試圖抓取一個HTML文檔,並獲得兩個評論之間的文本,但迄今爲止尚未成功完成。 我正在使用PHP,並嘗試過在這裏推薦的PHP簡單DOM解析器多次,但似乎無法讓它做我想做的事情。 這裏的(部分),我要解析的頁面: <div class="class"> <!-- blah --> text <!-- end blah -->