screen-scraping

7熱度

4回答

我試圖以編程方式提交特定的表單，但我總是將首頁返回。我必須在這裏做錯事或缺少些事。即時通訊發送會話cookie和一些POST數據像viewState（我從初始請求解析），和SessionID（這是我的形式更改從其他年份的數據更改數據）。但在第二次請求我讓永諾的數據會話899，而不是一個我請求：875 下面是使用的代碼：，任何幫助是非常apreciated retrieveEdmIndexFor

2熱度

1回答

是否可訪問性和反垃圾互斥性？

我想製作一個既難以篩選又難以訪問的網站。那是一個oxymoron？

0熱度

2回答

防止RSS提要抓取？

在Wordpress網站上，我既有一個我希望Google檢測到的正常博客，也有一個RSS源，用於向其他網站發送鏈接。我不需要/想讓機器人獲得其他RSS源，也不希望人們能夠獲取鏈接以供自己使用。我已經成功禁用了主博客的RSS，但不確定如何加密/保護/隱藏RSS鏈接以獲取此附加提要。我不確定Facebook如何在沒有RSS的情況下運行新聞傳遞，但是他們這樣做可能超出了我的複製手段/經驗。如果這些

1熱度

1回答

如何操作Joomla！易於屏幕抓取的網站

我得到了Joomla的所有者（誰不瞭解網站開發）的許可！網站從網站中提取文章（真實！）我從RSS提要中獲得了網址，但該提要沒有包含全文。你知道一種方法來操縱index.php參數來讓文章變得乾淨嗎？的URL現在的樣子： http://www.example.com/index.php?option=com_content&task=view&id=2093&Itemid=1

3熱度

1回答

使用Google App Engine的網頁/屏幕抓圖 - 代碼適用於python解釋器，但不適用於GAE

我想用GAE做網頁抓取。（無限校園學生信息門戶，fyi）。此服務需要您登錄才能進入該網站。我有一些代碼在正常的python中使用機械化。當我得知我無法在Google App Engine中使用機械化時，我最終使用了urllib2 + ClientForm。我無法讓它登錄到服務器，所以經過幾個小時的cookie處理後，我在普通的python解釋器中運行完全相同的代碼，並且它工作正常。我找到了日誌

2熱度

4回答

我應該可以同時打開多少個Java HttpURLConnections？

我在寫一個多線程的Java Web爬蟲。根據我對網絡的理解，當用戶加載網頁時，瀏覽器請求第一個文檔（例如index.html），並且當它接收到HTML時，它將查找需要包含的其他資源（圖像，CSS，JS ）並同時要求這些資源。我的搜尋器只請求原始文檔。出於某種原因，我無法每5秒鐘刮掉2到5頁。我爲每個HttpURLConnection創建一個新線程。我似乎應該至少能夠每秒鐘掃描20-40頁。如果我

7熱度

4回答

涉及具有屬性的HTML標記的Python網絡抓取

我正在試圖製作一個網絡抓取工具，它將解析出版物的網頁並提取作者。該網頁的骨骼結構如下： <html> <body> <div id="container"> <div id="contents"> <table> <tbody> <tr> <td class="author">####I want whatever is located here ###</td> </tr> <

0熱度

4回答

如何從表單上的隱藏字段中提取值

我有我想要提取的隱藏值的表單（在我自己的博客/ cms安裝中，我想玩一下）。問題是該頁面上有兩個表單，每個表單都帶有該值的隱藏字段。在每個表單字段名稱是相同的，只有隱藏的值不同。類似這樣的： <input type="hidden" id="_hiddenname" name="_hiddenname" value="valuehere"/> 兩者在html源代碼中看起來相同。所以，爲了幫助自

4熱度

3回答

如何查詢我的數據庫中用戶的排名，但只考慮每個用戶的最新條目？

可以說我有所謂的「刮」可能設置像一個數據庫表： UserID (int) UserName (varchar) Wins (int) Losses (int) ScrapeDate (datetime) 我想能夠根據他們的勝利/損失比率排名我的用戶。但是，每週我都會爲用戶提供新的數據，並在Scrape表中創建另一個條目。如何查詢根據勝/損失排序的用戶列表，但僅考慮最近的條目（Scra

0熱度

3回答

如何使用PHP和DOM文檔獲取特定內容？

我有一個我想搶的網址。我只想要一小段內容。有問題的內容是一個具有樣本ID的div。 <div id="sample"> Content </div> 我可以抓取文件像這樣： $url= file_get_contents('http://www.example.com/'); 但我怎麼只選擇樣品股利。任何想法？