2010-06-29 26 views
-2

我們正在建立一個網站,允許用戶收集和存儲自己喜愛的產品從互聯網到一個地方。我們有一個算法可以通過閱讀源代碼來過濾掉並找到正確的圖像。 80%的網站正常運行,但是兩家大公司阻止我們將產品頁面重定向到他們的主頁。Gap.com正在重定向我,當我嘗試屏幕刮擦

例如,此產品http://www.gap.com/browse/product.do?pid=741123&kwid=1&sem=false&sdReferer=http://www.gap.com/products/graphic-ts-toddler-boy-clothing-C35792.jsp#選擇gap.com主頁的標題,而不是手頭的產品。

我們如何解決此重定向問題,並允許我們的算法通過閱讀正確的源代碼來收集正確的圖像?

+0

您將不得不使用Fiddler和螢火蟲計算出它。比較curl和瀏覽器的頭文件。 – 2010-06-29 22:15:55

+0

該網站顯然不希望你在做你正在做的事情,並且你要求我們幫助你逃避阻止你的企圖? – 2010-06-30 09:17:55

回答

0

我想象你需要改變你的刮刀的用戶代理字符串,看起來像一個普通的瀏覽器(你可能會發送一個字符串,如curl或默認wget)。

儘管如此,如果你以他們的方式發送足夠的流量,他們最終會注意到並以一種難以規避的方式關閉你。

相關問題