2008-09-04 77 views
18

假設我有一個網站http://example.com。我真的想讓機器人看到主頁,但任何其他頁面都需要封鎖,因爲它對蜘蛛毫無意義。換句話說如何設置一個只允許網站默認頁面的robot.txt

http://example.com & http://example.com/應該被允許,但 http://example.com/anythinghttp://example.com/someendpoint.aspx應該被阻止。

而且這將是巨大的,如果我可以允許某些查詢字符串直通到主頁: http://example.com?okparam=true

但不 http://example.com?anythingbutokparam=true

回答

43

因此,一些研究之後,這裏是我發現 - 一個解決方案通過各大搜索服務提供商可以接受的:

User-Agent: * 
Disallow: /* 
Allow: /?okparam= 
Allow: /$ 

訣竅是使用:googleyahoo & MSN(我可以在這裏找到一個校驗) $標記URL的結尾。

0

基本的robots.txt:

Disallow: /subdir/ 

我不要以爲你可以創建一個表達式,說'除了根之外的一切',你必須填寫所有的子目錄。

查詢字符串限制也不可能從robots.txt中獲得。您必須在後臺代碼(處理部分)中執行此操作,或者使用服務器重寫規則。

0
Disallow: * 
Allow: index.ext 

如果我沒記錯,第二個子句應該覆蓋第一個子句。

1

Google's Webmaster Tools報告禁止始終優先於允許,所以在robots.txt文件中沒有簡單的方法。

您可以通過在HTML頁面上放置一個noindex,nofollowMETA標籤來實現此目的。

0

據我所知,並非所有的抓取工具都支持Allow標籤。一種可能的解決方案可能是將除主頁以外的所有內容放入另一個文件夾並禁止該文件夾。

相關問題