不完整的robots.txt，會發生什麼？

我在網站上有一個頁面，並且無法訪問我的頁面以外的任何其他頁面。該網站用於銷售各種小型產品。經過一年多的時間，並使用谷歌AdWords來幫助推廣自己，我注意到沒有任何產品的網頁在谷歌上被索引。當我注意到該網站的robots.txt並沒有包含太多的內容，並且想知道這是否與它有關。不完整的robots.txt，會發生什麼？

產品網址，格式如下：

www.example.com/myshopname/[product ID]?q=I[product ID]

而且robots.txt的無非是：

Disallow: /*_escaped_fragment_

有沒有用戶代理。我想知道這是否會對Google抓取我的網頁產生任何影響，或者它會忽略robots.txt，因爲沒有指定用戶代理。

來源

2016-10-02 Alex

在這裏獲取更多的詳細信息：https://moz.com/learn/seo/robotstxt – Franco

@Franco我閱讀關於機器人的文檔，關於不完整的robot.txt文件。從我所知道的是，你必須先鍵入一個用戶代理，然後是禁止規則。我不確定如果沒有給出用戶代理會發生什麼......機器人的行爲就好像用戶代理是*一樣，或者它會簡單地忽略禁止規則，因爲沒有給出用戶代理。如果它充當用戶代理是*，那麼將如何應用規則？由於AJAX爬行現在已被棄用，它會忽略該規則嗎？ – Alex

這個機器人。txt無效（根據original specification），因爲每個記錄至少需要一個User-agent和至少一個Disallow行。

該規範並沒有說消費者應該（試圖）解釋無效記錄。

所以，猜測：

嚴格的消費者會忽略這個無效的記錄。對於這些消費者來說，您的robots.txt將等同於一個不存在的robots.txt，這相當於這一個：
```
User-agent: * 
Disallow: 
```
（即，一切都被允許）
禮貌的消費者可能會認爲作者打算爲此記錄擁有User-agent: *。對於這些消費者來說，您的robots.txt將相當於這一個：
```
User-agent: * 
Disallow: /*_escaped_fragment_ 
```

在任何情況下，您的robots.txt會（最有可能）抓取網址其路徑開始/myshopname/停止沒有消費者（除非URL包含_escaped_fragment_，在這種情況下，一些消費者可能會停止抓取它，即那些將*作爲通配符插入的消息;這不是原始規範的一部分）。

來源

2016-10-03 22:41:16 unor

謝謝，這是我正在尋找。猜測機器人是否抓取它取決於它如何解釋這一點。 – Alex

我會給你這裏一些更多的信息：

robots.txt文件是你的Web服務器上的一個簡單的文本文件，該文件告訴網絡爬蟲，如果他們可以訪問的文件或沒有。您可以隨時訪問此文件，因爲它不是您的服務器系統文件的一部分，而是您網站的一部分。

在你的情況，我不知道這是什麼/*_escaped_fragment_手段，而是：

User-agent: * 
Disallow:/

將阻止訪問所有爬蟲

這枚：

User-agent: * 
Disallow:

允許完全訪問您的網站。

User-agent: * 
Disallow: /images/

將阻止訪問指定的文件夾

User-agent: * 
Disallow: /images 
Allow: /images/my_photo.jpg

即使你不允許一個文件夾，你可以隨時給訪問該文件夾中的指定文件。

User-agent: * 
Disallow: /assets.html

將阻止訪問指定的文件

所以star意味着所有的爬蟲，如果你希望指令對指定的履帶你需要做的：

User-agent: Googlebot

如果你是專門對googlebot感興趣，並且想要查看您的robot.txt是否阻止了網站上的文件或文件夾，請訪問https://developers.google.com/，以便查看是否阻止了頁面資源。

也有必要說，雖然robot.txt可以成爲您的搜索引擎優化的一個有用的工具，應用的指令將受到所有常規爬行程序的尊重。

惡意抓取工具不關心這些指令。

來源

2016-10-03 08:50:57 Franco

我已經知道robots.txt的用途，如何使用它以及關於它的文檔。我的問題是，如何讀取一個**不完整的機器人文件。 – Alex

不完整的robots.txt，會發生什麼？

回答

相關問題