2010-02-09 91 views
1

我不太瞭解搜索引擎優化和網絡蜘蛛如何工作,所以請原諒我的無知。我正在創建一個網站(使用ASP.NET-MVC),其中有一些區域顯示從數據庫中檢索到的信息。數據對用戶來說是唯一的,所以沒有真正的服務器端輸出緩存正在進行。但是,由於數據可能包含用戶可能不希望從搜索引擎結果中顯示的內容,因此我想阻止任何蜘蛛訪問搜索結果頁面。我應該採取什麼特別措施確保搜索結果目錄不被抓取?另外,蜘蛛是否會抓取一個動態生成的頁面,並且會阻止某些目錄被我的搜索引擎排名搜索搞亂?防止機器人爬行網站的某些區域

編輯:我應該補充說,我正在閱讀robots.txt協議,但它依賴於來自網絡爬蟲的合作。但是,我還想阻止任何將忽略robots.txt文件的數據挖掘用戶。

我感謝任何幫助!

回答

2

通過在服務器上實施限制措施,可以防止某些惡意客戶端過多地擊中服務器。 「對不起,您的IP在過去幾分鐘內對此服務器提出了太多請求,請稍後再試。」但是,在實踐中,假設您無法阻止真正的惡意用戶繞過任何適用的限制機制。

鑑於此,這裏的更重要的問題:

你舒服,你爲各方提供世界看到的信息? 您的用戶對此感到滿意嗎?

如果這些問題的答案是否定的,那麼您應該確保只有授權用戶才能看到敏感信息。如果信息不是特別敏感,但您不希望客戶端爬取它,那麼節流可能是一個很好的選擇。無論如何你有可能會被抓取?如果沒有,robots.txt應該沒問題。

+0

感謝您的答覆。這取決於用戶他們決定揭示哪些信息(完全瞭解它是公開的),如果用戶想隱藏密碼,也由用戶自行決定添加密碼。我希望該網站被抓取,以便宣傳該服務。我只是不希望用戶數據被編入索引。 – Skoder 2010-02-09 15:41:34

1

查看Robots exclusion standard。這是一個您放在網站上的文本文件,它告訴機器人它可以做什麼和不可以做什麼索引。您還需要解決如果機器人不遵守robots.txt文件會發生什麼情況。

+0

我從字面上只是更新了我的文章,以包括robots.txt信息在同一時間作爲您的文章:) – Skoder 2010-02-09 00:47:03

2

看來你有2個問題。

首先關注某些數據出現在搜索結果中。第二種是惡意或不道德的用戶收集用戶相關數據。

第一個問題將通過適當使用robots.txt文件來涵蓋,因爲所有的大型搜索引擎都會遵守這個規則。

第二個問題似乎更多與數據隱私有關。立即想到的第一個問題是:如果有人們可能不想顯示的用戶信息,爲什麼你可以提供它?
這些數據的隱私政策是什麼?
用戶是否有能力控制提供哪些信息?
如果信息可能對系統敏感但對系統很重要,它可能會受到限制,因此它僅適用於登錄用戶?

+0

用戶可以選擇顯示顯示哪些信息,如果他們選擇這樣做,他們可以用密碼保護他們的結果(類似於Twitter)。即使在保護區域,機器人可能沒有註冊帳戶,登錄,執行搜索並緩存結果?當然,沒有大名字的搜索引擎會,但也許是惡意的?我會通過ip掃描來保護,但只是好奇,如果這甚至是可能的。 – Skoder 2010-02-09 15:44:24

+0

@Skoder如果任何登錄用戶可能是機器人,您需要查看行爲模式,並可能實施某種形式的CAPTCHA,以防止進一步的「瀏覽」,直到您確認他們正在做的事情。實際上,如果有人可以註冊到網站並瀏覽數據,那麼無法保證它永遠不會被保存/緩存/等。 – 2010-02-09 16:02:41

+0

這是一個公平點。這些數據並不是超敏感/非公開的知識,但我仍然希望保持較高的隱私(如果只是爲了良好的做法)。謝謝您的幫助。 – Skoder 2010-02-09 16:17:23

1

robots.txt文件如上所述。如果這還不夠,那麼你可以:

  • 阻止未知useragents - 很難維持,容易讓機器人僞造瀏覽器的(儘管大多數合法機器人慣於)
  • 阻止未知IP地址 - 一個沒有用公共站點
  • 需要登錄
  • 限制用戶連接 - 棘手的調整,你仍然會公開信息。

也許通過使用組合。無論哪種方式,這是一個權衡,如果公衆可以瀏覽它,也可以一個機器人。確保您不會阻止&疏遠您嘗試阻止漫遊器的人。

+0

如果擔心惡意漫遊器瀏覽(緩存)該網站,未知用戶代理上的阻止不會產生影響。任何一種基本的惡意機器人都會知道改變用戶代理並冒充你想訪問的機器人。他們也會改變IP地址並使用多個不同的公共代理。 – 2010-02-09 16:05:29

+1

基本上總結了我所有的觀點... – Mobs 2010-02-10 09:34:10

0

幾個選項:

  • 強制用戶使用JavaScript
登錄查看內容
  • 內容之前在Flash中添加一個CAPTCHA頁面
  • 嵌入內容
  • 負載動態