screen-scraping

37熱度

4回答

如果網頁上有<div class="class1">和<p class="class1">，然後soup.findAll(True, 'class1')會發現他們兩個。如果它有<p class="class1 class2">，但它不會被找到。如何找到具有某個類的所有對象，而不管它們是否還有其他類？

7熱度

1回答

快速截圖**來自python

A PIL.Image.grab()大約需要0.5秒。這只是爲了將數據從屏幕上傳到我的應用程序，而不需要我做任何處理。另一方面，FRAPS可以截取高達30 FPS的截圖。我有什麼辦法可以從Python程序中做同樣的事情嗎？如果不是，那麼從C程序中怎麼樣？（我可以將它與Python程序連接起來，可能...）

2熱度

1回答

如何在Objective C中使用NSData存儲圖像

如何獲取UIImage並將其存儲爲NSData（寫入文件）？有沒有一些明顯的方法，或者有人可以提供一個代碼片段？在此先感謝！ PS。我的下一個問題可能是代碼片段捕獲當前屏幕圖像。我迄今看到的片段似乎嚴重矯枉過正，無法滿足我的需求。

1熱度

3回答

從堆棧溢出解析非標準日期字符串到.NET日期時間

我正在爲堆棧溢出編寫屏幕刮板。我現在正在編寫的這部分需要HTML，並將所有信息放入模型對象中。解析答案中的信息時，我遇到了一些麻煩。問題是StackOverflow用來描述絕對時間的日期格式。 DateTime.Parse不適用於他們。我試過與DateTime.ParseExact混戰，但我沒有成功。雙方拋出FormatException 這裏的一些背景：如果你看一下HTML源代碼的答案，你會

7熱度

3回答

Python WWW宏

我需要類似Python的iMacros。有這樣的事情會很棒： browse_to('www.google.com') type_in_input('search', 'query') click_button('search') list = get_all('<p>') 你知道嗎？在此先感謝， Etam。

0熱度

1回答

C＃屏幕刮板 - 處理長uri的

我正在構建一個html屏幕刮板，它解析URL，然後將它們與一組其他URL相比較。與Uri.AbsoluteUri或Uri.Host進行比較。我的問題是，當我創建一個新的Uri（新的Uri（url））時，當URL長或包含許多斜槓時會引發UriFormatException。由於我的預定義的一組網址包含幾個（到）長的網址，我不能只使用子串來只抓取一部分網址。什麼是處理的最佳方式？感謝

25熱度

3回答

查看生成的源代碼（後AJAX/JavaScript的），在C＃

有沒有一種辦法，以查看網頁的產生源（後所有的代碼AJAX調用和JavaScript DOM操作已經發生）從C＃應用程序，而無需打開了瀏覽器的代碼？使用WebRequest或WebClient查看初始頁面對象工作正常，但如果頁面在頁面加載時廣泛使用JavaScript來更改DOM，則這些不會提供頁面的準確圖片。我已經嘗試使用Selenium和Watin UI測試框架，它們完美地工作，提供所有Ja

4熱度

2回答

有沒有Python的機械化的Scala版本？

我在Python中使用了mechanize，並取得了巨大成功。但是，我正在嘗試學習Scala。我有一個IRC機器人，我想添加一些功能，主要是從我們公司的Intranet網頁抓取網頁。這需要重定向到全公司的登錄頁面，然後轉到目的地，然後必須提交另一個登錄名。有誰知道我可以從Scala中使用這些功能？

2熱度

2回答

我該如何刮這個框架？

如果您現在訪問this link，您可能會收到VBScript錯誤。另一方面，如果您訪問this link first和，然後上述鏈接（在同一會話中），頁面會通過。這個應用程序設置的方式，第一頁是作爲第二（主）頁面中的框架。如果你點擊一下，你會看到它是如何工作的。我的問題：我如何用Python刮第一頁？我試過了我能想到的所有東西 - urllib，urllib2，機械化 - 我得到的只有50

3熱度

2回答

在PHP中的HTML評論刮

我一直在環顧四周，但還沒有找到解決方案。我試圖抓取一個HTML文檔，並獲得兩個評論之間的文本，但迄今爲止尚未成功完成。我正在使用PHP，並嘗試過在這裏推薦的PHP簡單DOM解析器多次，但似乎無法讓它做我想做的事情。這裏的（部分），我要解析的頁面： <div class="class">  text