2013-01-21 136 views
3

我google了很多,並閱讀了大量的文章,但得到了不同的反應。子域vs子目錄阻止爬蟲

如果我想讓我的網站的某個部分被搜索引擎索引,我對於哪一個更好一些有點困惑。基本上,我爲我的網站進行了大量更新,也爲客戶設計了很多更新,我不希望爲預覽上傳的所有「測試數據」進行索引,以避免重複的內容問題。

  1. 我應該使用一個子域和阻止整個子域

  2. 創建一個子目錄,並使用robots.txt阻止它。

我是新來的網頁設計和即將使用的子域(讀的地方,這是一個有點先進的過程,甚至一個小小的失誤就可能有大的後果有點不安全,而且馬特·卡茨也提到類似的東西(source):

「我建議你使用子目錄,直到你開始感到與你的網站的結構非常 有信心在這一點上,你會 更好的裝備,以做出正確的決定你自己的網站。「

但另一方面,我對使用robots.txt以及任何人都可以訪問該文件猶豫不決。

兩者的優缺點是什麼?

現在我的印象是,谷歌同樣對待,最好去robots.txt的子目錄,但我希望在「冒險」之前發表第二個意見。

+1

如果你把它放在網上假設有人會複製它。 Robots.txt是可選的 - 不道德的搜索引擎可以並且會簡單地忽略它。如果必須成爲部署站點的一部分,請在您的「測試區域」上輸入用戶名/密碼。 –

回答

1

要麼你問漫遊器不要索引你的內容(→robots.txt的)你所有人關(→密碼保護)。

對於此決定,與使用單獨的子域或文件夾無關。您可以爲兩者使用robots.txt或密碼保護。請注意,robots.txt始終必須放在文檔根目錄中。

使用robots.txt不能保證,這只是一個禮貌的請求。有禮的機器人會尊重它,其他人則不會。人類用戶仍然可以訪問您的「禁止」頁面。即使那些榮譽您的robots.txt(例如谷歌)的機器人仍然可以鏈接到他們搜索的「不允許」內容(儘管如此,它們不會對內容進行索引)。

使用登錄機制可以保護您的網頁免受全部機器人和訪問者的侵害。

+0

感謝您提供的信息非常豐富,我想我會選擇密碼保護。 – TDsouza