screen-scraping

    32熱度

    7回答

    我一直在使用正則表達式在PHP中進行一些html抓取。這有效,但結果是挑剔和脆弱。有沒有人使用過任何提供更強大解決方案的軟件包?一個配置驅動的解決方案將是理想的,但我不挑剔。

    3熱度

    4回答

    我需要一個網頁並從頁面中提取地址信息。有些比其他人更容易。我正在尋找一個Firefox插件,Windows應用程序,或VB.NET代碼,這將幫助我完成這件事。 理想情況下,我想在我們的管理員(ASP.NET/VB.NET)的網頁上輸入一個URL,然後將該頁面剪下並返回一個可放入網格的數據集。

    5熱度

    5回答

    我們正在構建CMS。該網站將由aspx頁面中的用戶構建和管理,但我們希望創建一個靜態HTML網站。 我們現在要做的方式是使用代碼我發現here重載Aspx頁面中的Render方法並將HTML字符串寫入文件。這對於單個頁面來說工作正常,但我們的CMS的事情是,我們希望從一開始就爲網站自動創建一些HTML頁面,甚至在創作者編輯系統中的任何內容之前。 有誰知道有任何方法可以做到這一點?

    1熱度

    8回答

    這個問題跟隨我的previous question關於從ASPX頁面獲取HTML。我決定嘗試使用webclient對象,但問題是我得到登錄頁面的HTML,因爲需要登錄。我嘗試使用webclient對象「登錄」: WebClient ww = new WebClient(); ww.DownloadString("Login.aspx?UserName=&Password="); strin

    3熱度

    8回答

    我想刮一個html表並將其數據保存在數據庫中。你發現哪些策略/解決方案有助於解決這個計劃。 我非常喜歡Java和PHP,但真的是任何語言的解決方案都會有所幫助。 編輯:欲瞭解更多詳情,UTA(鹽湖公交系統)在其網站上提供巴士時刻表。每個時間表都出現在一個表格中,該表格的標題中包含工作站,行中的起始時間也是這樣。我想通過時間表並將表格中的信息保存在一個表格中,然後我可以查詢。 這裏的starting

    4熱度

    4回答

    尋找一個Linux應用程序(或Firefox擴展),它將允許我抓取HTML模型並保持頁面的完整性。 Firefox做了一個幾乎完美的工作,但不抓取CSS中引用的圖像。 Firefox的Scrabbook擴展獲取所有內容,但是使目錄結構變得平坦。 我不會非常在意如果所有文件夾成爲索引頁的孩子。

    3熱度

    1回答

    我正在用dot net編寫一個程序,它將使用框架2.0的Process對象執行腳本和命令行程序。我希望能夠訪問我程序中的進程的屏幕緩衝區。我已經調查過這一點,看來我需要訪問控制檯stdout和stderr緩衝區。任何人都知道這是如何使用託管代碼完成的? 我想我需要使用附加到任務的窗口控制檯的AttachConsole和ReadConsoleOutput來從控制檯屏幕讀取字符和屬性數據塊。我需要做的

    1熱度

    3回答

    我正在做一個個人的,只是爲了好玩,使用屏幕抓取的項目給我一個系統托盤通知,以防添加,修改或刪除HTML表格上的另一行。 之前做過這些之前我想:我們來看看正則表達式的東西,就是這樣,但作爲一個好奇的人,讓我覺得可能有其他東西可以有另一個範例,但是要儘可能簡單使用。 我瞭解DOM和X-Path以及所有xml'ish方法。我正在尋找盒子外的東西,甚至可以在一組規則中定義,這樣您就可以製作一個插件系統來聚

    2熱度

    9回答

    是否有任何網站/服務可以讓我將RSS訂閱添加到任何網站? 這是爲我的公司工作。我們有一個顯示公司相關新聞的網站。這些消息由外部機構提供,並自動更新到我們的數據庫。我們的網站收集隨機/新消息並顯示它們。我們正在尋找添加「通過RSS訂閱」按鈕到我們的網站。

    28熱度

    9回答

    有沒有一個好的測試套件或工具集,可以自動化網站導航 - 與JavaScript支持 - 並從網頁收集HTML? 當然,我可以用BeautifulSoup刮直HTML。但是這對我需要使用Javascript的網站沒有好處。 :)