是更好地使用元標記*或robots.txt文件告知蜘蛛/爬蟲來包含或排除特定的網頁?Meta標記VS的robots.txt
使用meta標籤和robots.txt是否存在問題?
*如:<#META name="robots" content="index, follow">
是更好地使用元標記*或robots.txt文件告知蜘蛛/爬蟲來包含或排除特定的網頁?Meta標記VS的robots.txt
使用meta標籤和robots.txt是否存在問題?
*如:<#META name="robots" content="index, follow">
Robots.txt恕我直言。
元標記選項告訴機器人不索引個別文件,而Robots.txt可用於限制對整個目錄的訪問。
當然,如果您想要跳過的索引文件夾中有奇怪的頁面,請使用Meta標籤,但通常我會建議您將大部分非索引內容放在一個或多個文件夾中,並使用robots.txt跳過很多地方。
沒有,沒有在同時使用一個問題 - 如果有衝突,一般來講,一個否認會否決的允許。
我可能會使用robots.txt
在meta
標籤。 Robots.txt的使用時間更長,並且可能會得到更廣泛的支持(但我不能100%確定)。
至於第二部分,我想大多數蜘蛛會採取任何一個頁面的限制最多的設置 - 如果robots.txt和meta標籤之間存在差異。
兩者都受到網站管理員希望尊重的所有抓取工具的支持。並非所有人都這麼做,但對他們來說,這兩種技術都不夠。
您可以使用robots.txt規則來處理一般情況,例如禁止網站的整個部分。如果您說Disallow: /family
那麼所有以/family
開頭的鏈接都將不會被抓取工具編入索引。
Meta標籤可用於禁止單個頁面。元標記不允許使用的頁面不會影響頁面層次結構中的子頁面。如果您在/work
上擁有meta disallow標記,則在允許的頁面上存在鏈接時,它不會阻止搜尋器訪問/work/my-publications
。
有一個顯着的區別。根據谷歌https://support.google.com/webmasters/answer/6062608?hl=en他們仍然會索引robots.txt DENY後面的頁面,如果該頁面通過其他網站鏈接。
然而,他們不會,如果他們看到了元標記:
儘管谷歌不會抓取或索引robots.txt所封鎖的內容,我們可能仍然發現和索引從其他地方上不允許的網址網絡。因此,網址鏈接以及潛在的其他公開信息(如鏈接到網站的定位文字)仍可能會顯示在Google搜索結果中。您可以使用其他網址攔截方法,例如使用noindex元標記或響應標題對服務器上的文件或進行密碼保護,以阻止您的網址完全顯示在Google搜索結果中。
並根據這些[1](http://evolvedigitallabs.com/blog/robots-txt-vs-noindex-differences),[2](http://etechdiary.com/robots-txt-vs-noindex- deindex-your-site-the-right-way),[3](http://moz.com/learn/seo/robotstxt)頁面,它不只是谷歌。通常,元標記用於禁止索引,而robots.txt用於禁止爬網。 – zrisher 2014-08-01 23:07:37
+1,如果內容發生變化,我冒昧地更新您的帖子,並在鏈接頁面添加引用。 – Benjamin 2017-03-10 13:59:14
你可以有任何一個,但如果你的網站有大量的網頁,然後機器人。TXT容易,減少了時間複雜度
robots.txt的是良好的大量消耗如內部搜索或過濾器具有無限組合的爬行預算的網頁。如果您允許Google索引yoursite.com/search=lalalala
,則會浪費您抓取預算。
元優越。
爲了從搜索引擎索引中排除單個頁面,noindex元標記實際上優於robots.txt。
元機器人和robots.txt存在非常大的差異。
robots.txt中,我們要求你有網頁抓取,哪一個你必須排除爬蟲,但我們不抓取問爬蟲不要索引這些豁免頁面。
但是,如果我們使用元robots標籤,我們可以讓搜索引擎爬蟲不要索引這個PAGE電泳標籤用於這就是:
< #meta名=「機器人的名字」,內容=「 NOINDEX「>(刪除#)
OR
< #meta名稱= 」機器人名「,內容= 」跟隨,加入noindex「>(刪除#)
在第二元標記,我機器人要求遵循該URL但不搜索索引發動機。
您想在robots meta tag而不是robots.txt
中使用'noindex,follow',因爲它會允許鏈接汁通過。從SEO的角度來看,它更好。
這是一個網頁開發方面的編程相關問題。 – Tom 2010-08-08 23:42:25