我需要刮一個遠程html頁面來尋找圖片和鏈接。我需要在頁面上找到「最有可能」產品圖像的圖像,以及「接近」該圖像的鏈接。我目前用javascript書籤做這個,這樣我就可以得到圖像和鏈接的渲染x/y座標,以幫助我確定這些是否是我想要的。從網頁上颳去內容
我想要的是通過使用url而不是書籤的方式來獲取這些信息的能力。通過使用url並嘗試諸如httpwebrequest和獲取服務器上的html之類的問題,我不會擁有位置值,因爲它不是在瀏覽器中呈現的。我需要圖像和鏈接的位置來幫助我確定我想要的圖像和鏈接。
那麼如何從服務器上的遠程站點獲取html並使用dom元素的渲染位置值來幫助我找到圖像和鏈接?
請注意這樣做。如果您消耗了太多的服務器資源,或者像忽略了'robots.txt'那樣做了一些不愉快的事情,網站可能會將您列入黑名單。 – 2010-09-06 06:09:32