Facebook剛剛實施了一些網頁抓取工具嗎?過去幾天,我的網站幾次崩潰,嚴重超載了我追溯到Facebook的IP。Facebook抓取工具Bot崩潰站點
我已經嘗試了google搜索,但無法找到任何關於通過robots.txt控制Facebook的爬蟲機器人的權威資源。有上添加以下的引用:
用戶代理:facebookexternalhit/1.1 抓取延遲:5
用戶代理:facebookexternalhit/1.0 抓取延遲:5
用戶代理:facebookexternalhit/* 抓取延遲:5
但我找不到任何具體的參考是否Facebook的bot殭屍尊重robots.txt。據舊資料顯示,Facebook「不會抓取您的網站」。但是這肯定是錯誤的,因爲我的服務器日誌顯示他們以每秒多個頁面的速率從69.171.237.0/24和69.171.229.115/24範圍內的十幾個IP爬取我的網站。
我找不到任何有關這方面的文獻。我懷疑這是FB在過去幾天剛剛實施的新事物,因爲我的服務器以前從未崩潰。
有人能請指教嗎?
是的,最近發生了一些變化,因爲它在我們八年來首次使我們崩潰。據說他們正在「更新他們的opengraph」。然而,看着我們的頁面,它正在請求(非常陳舊的隱藏頁面),我想知道一個合法的機器人是否正在執行JavaScript,並拉入類似按鈕,觸發FB OpenGraph更新。這只是一個預感... – Stickley
相關問題:http://stackoverflow.com/questions/11521798/excessive-traffic-from-facebookexternalhit-bot?lq=1和http://stackoverflow.com/questions/7716531/ facebook-and-crawl-delay-in-robots-txt?lq = 1 – Stickley
感謝您的建議和參考,Hank。在一次事件中,我的網站在11月8日或9日被幾十次訪問淹沒了幾個小時。但這一次 - 這不是Facebook,而是亞馬遜。它突然開始大規模地抓取網站中的大量鏈接,但似乎沒有任何明顯的模式 - 訪問的某些頁面是不明顯的/舊的頁面,而有些則是最新的。不知道他們是否刷新自己的搜索引擎數據庫。 – Andy