我正在開發一些報廢軟件來檢查產品價格是否變化。爲此,我發送Web http請求來獲取產品頁面,它將返回整個html頁面。有很多項目的檢查,所以我做並行,所以我的網絡帶寬迅速耗盡Web抓取:如何從某個頁面獲取特定元素?
的主要問題:
是否可以發送網頁的HTTP請求與選擇查詢得到的只有html頁面的特定元素?
我正在開發一些報廢軟件來檢查產品價格是否變化。爲此,我發送Web http請求來獲取產品頁面,它將返回整個html頁面。有很多項目的檢查,所以我做並行,所以我的網絡帶寬迅速耗盡Web抓取:如何從某個頁面獲取特定元素?
的主要問題:
是否可以發送網頁的HTTP請求與選擇查詢得到的只有html頁面的特定元素?
您最好的(免費/低價)賭注是Html Agility Pack。那裏有自動化的解決方案,有一個用戶界面,你可以將它粘在URL中,然後點擊並點擊你想要提取的元素,然後他們爲你生成信息。大$ $$$的東西,雖然:(。使用Html敏捷包,你必須手工創建「xpath」
我使用Html敏捷包,但我hav e下載整個html以使其可以選擇 –
@IvanSukhetskyi,正確。您不能只下載HTML的任意部分。 HTML不算什麼。大部分尺寸來自腳本,圖片,動畫,樣式等,這些都不需要拉動。 – SledgeHammer
你不能,除非目標服務器支持範圍請求,你可以發送一個請求測試目標服務器是否符合範圍要求
特定元素?否。您應該檢查一個API,因爲這樣會非常有利於提取 – itsme86
該供應商沒有API –
不錯的夢想,但我不知道任何協議只向服務器請求頁面的一部分,你可能可以使用一個客戶端流來處理一些事情,一旦你關心的元素被接收到,這些客戶端流就會關閉流,但是這會發生在非常接近線的地方(即直接套接字控制,也許?)。 –