2016-10-02 38 views
1

我在網站上有一個頁面,並且無法訪問我的頁面以外的任何其他頁面。該網站用於銷售各種小型產品。 經過一年多的時間,並使用谷歌AdWords來幫助推廣自己,我注意到沒有任何產品的網頁在谷歌上被索引。當我注意到該網站的robots.txt並沒有包含太多的內容,並且想知道這是否與它有關。不完整的robots.txt,會發生什麼?

產品網址,格式如下:

www.example.com/myshopname/[product ID]?q=I[product ID] 

而且robots.txt的無非是:

Disallow: /*_escaped_fragment_ 

有沒有用戶代理。我想知道這是否會對Google抓取我的網頁產生任何影響,或者它會忽略robots.txt,因爲沒有指定用戶代理。

+0

在這裏獲取更多的詳細信息:https://moz.com/learn/seo/robotstxt – Franco

+0

@Franco我閱讀關於機器人的文檔,關於不完整的robot.txt文件。 從我所知道的是,你必須先鍵入一個用戶代理,然後是禁止規則。我不確定如果沒有給出用戶代理會發生什麼......機器人的行爲就好像用戶代理是*一樣,或者它會簡單地忽略禁止規則,因爲沒有給出用戶代理。 如果它充當用戶代理是*,那麼將如何應用規則?由於AJAX爬行現在已被棄用,它會忽略該規則嗎? – Alex

回答

0

這個機器人。txt無效(根據original specification),因爲每個記錄至少需要一個User-agent和至少一個Disallow行。

該規範並沒有說消費者應該(試圖)解釋無效記錄。

所以,猜測:

  • 嚴格的消費者會忽略這個無效的記錄。對於這些消費者來說,您的robots.txt將等同於一個不存在的robots.txt,這相當於這一個:

    User-agent: * 
    Disallow: 
    

    (即,一切都被允許)

  • 禮貌的消費者可能會認爲作者打算爲此記錄擁有User-agent: *。對於這些消費者來說,您的robots.txt將相當於這一個:

    User-agent: * 
    Disallow: /*_escaped_fragment_ 
    

在任何情況下,您的robots.txt會(最有可能)抓取網址其路徑開始/myshopname/停止沒有消費者(除非URL包含_escaped_fragment_,在這種情況下,一些消費者可能會停止抓取它,即那些將*作爲通配符插入的消息;這不是原始規範的一部分)。

+0

謝謝,這是我正在尋找。猜測機器人是否抓取它取決於它如何解釋這一點。 – Alex

0

我會給你這裏一些更多的信息:

robots.txt文件是你的Web服務器上的一個簡單的文本文件,該文件告訴網絡爬蟲,如果他們可以訪問的文件或沒有。 您可以隨時訪問此文件,因爲它不是您的服務器系統文件的一部分,而是您網站的一部分。

在你的情況,我不知道這是什麼/*_escaped_fragment_手段,而是:

User-agent: * 
Disallow:/

將阻止訪問所有爬蟲

這枚:

User-agent: * 
Disallow: 

允許完全訪問您的網站。

User-agent: * 
Disallow: /images/ 

將阻止訪問指定的文件夾

User-agent: * 
Disallow: /images 
Allow: /images/my_photo.jpg 

即使你不允許一個文件夾,你可以隨時給訪問該文件夾中的指定文件。

User-agent: * 
Disallow: /assets.html 

將阻止訪問指定的文件

所以star意味着所有的爬蟲,如果你希望指令對指定的履帶你需要做的:

User-agent: Googlebot 

如果你是專門對googlebot感興趣,並且想要查看您的robot.txt是否阻止了網站上的文件或文件夾,請訪問https://developers.google.com/,以便查看是否阻止了頁面資源。

也有必要說,雖然robot.txt可以成爲您的搜索引擎優化的一個有用的工具,應用的指令將受到所有常規爬行程序的尊重。

惡意抓取工具不關心這些指令。

+0

我已經知道robots.txt的用途,如何使用它以及關於它的文檔。我的問題是,如何讀取一個**不完整的機器人文件。 – Alex