我最近編寫了一個Java爬蟲程序,它可以在網站中找到視頻鏈接並保存在文本文件中。但是有一個嚴重的問題。他們如何防止網頁爬行?
爲防止網頁抓取,他們使用一些方法來改變服務器中視頻的路徑。我知道他們不會動態地改變視頻鏈接的實際路徑。這太昂貴了。但是,我可以想出一個猜測,即他們使用諸如session-id之類的一些密鑰來加密文件路徑。
現在,我從Web服務器上獲取HTTP 410 - Gone錯誤。任何想法他們如何防止爬行和解決方案來克服這些傢伙的聰明方法?
我最近編寫了一個Java爬蟲程序,它可以在網站中找到視頻鏈接並保存在文本文件中。但是有一個嚴重的問題。他們如何防止網頁爬行?
爲防止網頁抓取,他們使用一些方法來改變服務器中視頻的路徑。我知道他們不會動態地改變視頻鏈接的實際路徑。這太昂貴了。但是,我可以想出一個猜測,即他們使用諸如session-id之類的一些密鑰來加密文件路徑。
現在,我從Web服務器上獲取HTTP 410 - Gone錯誤。任何想法他們如何防止爬行和解決方案來克服這些傢伙的聰明方法?
有各種各樣的,人們可以實現保護自己的資源不被盜竊/方法刮痧:
如果他們有版權聲明他們發佈的信息(或者該信息不屬於公有領域),如果他們試圖阻止這種訪問,這就暗示了這一點;那麼你在世界各地的大部分地區都可能違法。
他也應該閱讀'robots.txt',如果它存在找出他應該和不應該抓取。 – Dev
您的爬網程序是否正確處理會話? – kba
如何不抓取顯然不想被抓取的網站? – Perception
你有一個我們可以看到的問題發生的例子網站嗎? – ARRG