2013-02-26 23 views
0

瀏覽阻止我和某人(使用多個IP地址)的問題瀏覽所有在我店使用:Magento的 - 從沒有重寫

example.com/catalog/category/view/id/$i 

我已經URL重寫開啓,所以平時人瀏覽看起來「友好「:

example.com/category_name.html 

因此,問題是 - 如何使用瀏覽店鋪防止‘老’(不重寫)的網址,只留下‘允許友好’的網址嗎?

這是非常重要的,因爲它是用數以百計的線程這是造成店裏工作很慢。

回答

1

由於有許多隨機IP地址,顯然你不能阻止地址的單個或小團體的訪問。您可能需要實現一些日誌記錄,以某種方式唯一地標識此搜尋器(可能通過瀏覽器代理或可能對Modernizr JavaScript庫的某些巧妙使用)。

一旦您能夠區分該抓取工具的某些唯一標識符,您可以使用.htaccess中的規則(如果它是用戶代理的東西)重定向或以其他方式阻止它們使用您的服務器的權限。

這太問題提供了用戶代理規則的詳細信息。

Block all bots/crawlers/spiders for a special directory with htaccess

+0

根據@Spyro如何管理自己的電子商務公司,阻止所有機器人/爬蟲可能是一個糟糕的主意......我們已經從我們的供應商是抓取我們的網站,檢查是否有很多事情,從頁面的可用性爬蟲(沒有404的)和正確的庫存狀態等......如果你打算出售他們的產品2500,他們*應該*能夠檢查他們。阻止這樣的流量是非常危險的,因爲很難清除「友誼」... – Zak 2013-02-26 20:28:13

+2

當然,這就是爲什麼我建議實施一些日誌來檢查此特定搜尋器的唯一標識符。如果這是一個合法的爬蟲,它可能有一些好處,但是如果它將他的網站放慢到實際用戶無法使用的程度,那麼該爬蟲應該因爲侵入性而被阻止。如果爬蟲是非法的,並且它具有唯一的標識符,那麼它需要被顯示出來。 – pspahn 2013-02-26 20:37:12

0

一旦重寫在那裏......他們在那裏。它們存儲在Mage數據庫中的原因很多。一個是像爬行您的網站的爬蟲。另一個是可能會將舊頁面加入書籤的用戶。有許多方法可以讓人們通過並清理重定向(Google) ......但就目前而言,在Magento中,一旦他們在那裏,他們就不容易使用Magento進行管理。

我可能會建議產生一個新的site map並提交到影響你的網站爬蟲。這個抓取工具不僅會抓取大量不需要的頁面,而且還會看到重複的內容(糟糕的重量)。

+0

我檢查了IP,其中大部分都屬於法國的OVH託管公司。現在糾正我,如果我錯了,但我懷疑合法的爬蟲正在使用託管服務器工作...;) – Cleankod 2013-02-27 06:30:13

+0

此外,我的店開始從URL生效的第一天開始重寫。因此,我懷疑某人可能在其書籤中存在「舊」鏈接。至於網站地圖,我已經有了,Google在這裏不是問題。 – Cleankod 2013-02-27 06:32:04

1

如果蜘蛛抓取給定模式的所有URL:

example.com/catalog/category/view/id/$i 

那麼你可以殺死一個.htaccess這些URL。重寫是從category.html -> /catalog/category/view/id/$i內部進行的,所以你只能阻止機器人。

+0

我已經嘗試過,但是當dir不存在時,什麼規則會阻止url,其他規則是否將這些重寫爲前端控制器的實際調用? – Cleankod 2013-02-27 06:33:53

+0

如果您沒有錯誤的書面模塊,每個模塊都應該使用category.html鏈接進行重定向(301,302)。所以你可以阻止這個網址 - 我想。您可以嘗試如下所示:拒絕全部 – 2013-02-27 08:34:47