2014-10-16 54 views
1

我目前正在使用Drupal 7網站。添加以下到我的robots.txt文件(下# Directories部分)禁止:/網站/默認/文件/不適用於我的Drupal網站

Disallow: /sites/default/files/ 

但是當我鍵入谷歌「網站:www.example.com類型pdf」,它仍然能夠爬進我的/sites/default/files文件夾。任何人都可以請幫我找出爲什麼這些仍然被抓取?

我在這裏得到的唯一相關的鏈接是:Can I add sites/default/files in robots.txt?它不回答我的問題。

回答

0

請記住,Google的緩存有效期爲2周左右,因此您的設置在該時間段之後會很有幫助。

0

嘗試

# Directories 
Disallow: /themes/sites/default/files/ 
0

當您在您的robots.txt有

Disallow: /sites/default/files/ 

,而這條線是在記錄有符合谷歌的機器人一User-agent線,那麼谷歌是不允許抓取路徑以/sites/default/files/開頭的任何URL。

但Google仍然允許索引這些URL(但不是內容)。例如,當Google找到指向被封鎖網頁的鏈接,或之前允許Google抓取網頁時,這些網頁的鏈接仍可能會顯示在Google搜索結果中。

如果Google也索引了您網頁上的內容,則說明有問題。

  • 這可能是因爲您最近只在robots.txt中阻止了網址。如果是這樣,您只需等待一段時間,直到Google再次捕獲您的robots.txt。
  • 這可能是因爲Google沒有與此Disallow行所在的記錄相匹配,或者由於您的robots.txt存在其他問題(我們需要查看它以回答此問題)。
+0

第一個解釋是有道理的。我最近添加了這個到我的robots.txt文件。 對於第二種解釋,我已經爲所有用戶代理添加了這一點。你可以在這裏看到我的robots.txt文件: https://www.familyoffice.com/robots.txt 謝謝你抽出時間幫助我。 – user3570925 2014-10-20 14:56:41

+0

@ user3570925:您的robots.txt看起來不錯。因此,Google應該停止立即抓取這些流程。但是,正如所解釋的,可能會出現這種情況,即您的網址保留後,但不會從您的網頁中獲取標題/摘錄。 – unor 2014-10-20 18:11:47

相關問題