screen-scraping

    7熱度

    4回答

    我試圖以編程方式提交特定的表單,但我總是將首頁返回。 我必須在這裏做錯事或缺少些事。 即時通訊發送會話cookie和一些POST數據像viewState(我從初始請求解析),和SessionID(這是我的形式更改從其他年份的數據更改數據)。但在第二次請求我讓永諾的數據會話899,而不是一個我請求:875 下面是使用的代碼:,任何幫助是非常apreciated retrieveEdmIndexFor

    2熱度

    1回答

    我想製作一個既難以篩選又難以訪問的網站。 那是一個oxymoron?

    0熱度

    2回答

    在Wordpress網站上,我既有一個我希望Google檢測到的正常博客,也有一個RSS源,用於向其他網站發送鏈接。我不需要/想讓機器人獲得其他RSS源,也不希望人們能夠獲取鏈接以供自己使用。 我已經成功禁用了主博客的RSS,但不確定如何加密/保護/隱藏RSS鏈接以獲取此附加提要。 我不確定Facebook如何在沒有RSS的情況下運行新聞傳遞,但是他們這樣做可能超出了我的複製手段/經驗。 如果這些

    1熱度

    1回答

    我得到了Joomla的所有者(誰不瞭解網站開發)的許可!網站從網站中提取文章(真實!) 我從RSS提要中獲得了網址,但該提要沒有包含全文。 你知道一種方法來操縱index.php參數來讓文章變得乾淨嗎? 的URL現在的樣子: http://www.example.com/index.php?option=com_content&task=view&id=2093&Itemid=1

    3熱度

    1回答

    我想用GAE做網頁抓取。 (無限校園學生信息門戶,fyi)。此服務需要您登錄才能進入該網站。 我有一些代碼在正常的python中使用機械化。當我得知我無法在Google App Engine中使用機械化時,我最終使用了urllib2 + ClientForm。我無法讓它登錄到服務器,所以經過幾個小時的cookie處理後,我在普通的python解釋器中運行完全相同的代碼,並且它工作正常。我找到了日誌

    2熱度

    4回答

    我在寫一個多線程的Java Web爬蟲。根據我對網絡的理解,當用戶加載網頁時,瀏覽器請求第一個文檔(例如index.html),並且當它接收到HTML時,它將查找需要包含的其他資源(圖像,CSS,JS )並同時要求這些資源。 我的搜尋器只請求原始文檔。出於某種原因,我無法每5秒鐘刮掉2到5頁。我爲每個HttpURLConnection創建一個新線程。我似乎應該至少能夠每秒鐘掃描20-40頁。如果我

    7熱度

    4回答

    我正在試圖製作一個網絡抓取工具,它將解析出版物的網頁並提取作者。該網頁的骨骼結構如下: <html> <body> <div id="container"> <div id="contents"> <table> <tbody> <tr> <td class="author">####I want whatever is located here ###</td> </tr> <

    0熱度

    4回答

    我有我想要提取的隱藏值的表單(在我自己的博客/ cms安裝中,我想玩一下)。問題是該頁面上有兩個表單,每個表單都帶有該值的隱藏字段。在每個表單字段名稱是相同的,只有隱藏的值不同。類似這樣的: <input type="hidden" id="_hiddenname" name="_hiddenname" value="valuehere"/> 兩者在html源代碼中看起來相同。所以,爲了幫助自

    4熱度

    3回答

    可以說我有所謂的「刮」可能設置像一個數據庫表: UserID (int) UserName (varchar) Wins (int) Losses (int) ScrapeDate (datetime) 我想能夠根據他們的勝利/損失比率排名我的用戶。但是,每週我都會爲用戶提供新的數據,並在Scrape表中創建另一個條目。 如何查詢根據勝/損失排序的用戶列表,但僅考慮最近的條目(Scra

    0熱度

    3回答

    我有一個我想搶的網址。我只想要一小段內容。有問題的內容是一個具有樣本ID的div。 <div id="sample"> Content </div> 我可以抓取文件像這樣: $url= file_get_contents('http://www.example.com/'); 但我怎麼只選擇樣品股利。 任何想法?