2013-08-12 48 views
0

我在根域中有一個WordPress網站。現在,我已經在子文件夾中添加了一個論壇,作爲mydomain /論壇 ,它使站點地圖如下所示:mydomain/forum/sitemap_index.xml。 將該網站地圖提交給谷歌,它聽起來谷歌不能訪問子網站地圖的消息「Url被robots.txt阻止」 - 值:mydomain/forum/sitemap-forums.xml?page = 1 ---值: mydoamin /論壇/網站導航-INDEX.XML?頁= 1。Url被Google網站管理員robots.txt留言阻止

這是我的robots.txt:

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content/plugins 
Disallow: /wp-content/cache 
Disallow: /wp-content/themes 
Disallow: /trackback 
Disallow: /feed 
Disallow: /comments 
Disallow: /category/*/* 
Disallow: */trackback 
Disallow: */feed 
Disallow: */comments 
Disallow: /*?* 
Disallow: /*? 
Allow: /wp-content/uploads 


# Google Image 
User-agent: Googlebot-Image 
Disallow: 
Allow: /* 

Sitemap: mydomain/sitemap_index.xml 
Sitemap: mydomain/forum/sitemap_index.xml 

我應該添加什麼的robots.txt?任何幫助將不勝感激。 在此先感謝

回答

1

只是爲了澄清,我假設「MYDOMAIN」在你的例子是計劃加完全合格的域名,正確的替身? (例如,「http://www.whatever.com」,而不是「whatever.com」或「www.whatever.com」)我想這一定是這種情況,因爲您在Google錯誤消息中以相同的格式存在它。

錯誤消息表明Google從robots.txt文件以外的地方獲取URL。 robots.txt文件列出的站點地圖網址爲:

mydomain/forum/sitemap_index.xml 

但該錯誤消息顯示,谷歌試圖加載的網址:

mydomain/forum/sitemap-index.xml?page=1 

這第二url被阻塞,因爲你的機器人。 txt文件塊包含一個問號任何網址:

Disallow: /*?* 
Disallow: /*? 

(順便說一句,這兩條線路做同樣的事情,你可以安全地刪除第一個。)谷歌應該仍然能夠讀ŧ但是他使用更簡單的URL的站點地圖文件,所以頁面可能仍會被抓取。如果你真的想擺脫的錯誤信息,你可以隨時添加:

Allow: /forum/sitemap-index.xml?page=1 

這將覆蓋不允許只是Sitemap網址。 (這將在谷歌至少工作 - YMMV任何其他搜索引擎)

+0

謝謝。正如我在我的sitemap-index.xml中看到的,有一些鏈接,如sitemap-thread.xml?page = 1和sitemap-forum.xml?page = 1和....所以,在你的幫助下,我會嘗試這:允許:/論壇/網站地圖*?*(也許將來會有page2,page3,...)。此外,它聽起來我必須等待一段時間(=幾個小時)谷歌重新檢查它。我對嗎? – ALalavi

+0

即使只是「允許:/論壇/網站地圖」應該工作,至少在Google上。對於Googlebot,較長的規則(以字符數計)優先於較短的規則。模式「/ forum/sitemap」長於「/ *?」所以它優先。是的,Googlebot可能需要一段時間才能注意到您的新robots.txt文件。預計需要幾天時間,儘管你可能會很幸運。 – plasticinsect

相關問題