我有一個大型網站的自動生成的網站地圖,其中包含一些導致404錯誤,我需要刪除的網址。我需要根據站點地圖中的網址生成報告,而不是抓取網站上由於錯誤鏈接而導致的錯誤。我看不到任何將抓取錯誤報告過濾爲僅包含這些URL的方式。有沒有人知道我可以做到這一點的方式?搜索引擎優化,谷歌網站管理員工具 - 我怎樣才能生成404網址錯誤報告的網站地圖中的壞網址?
感謝
我有一個大型網站的自動生成的網站地圖,其中包含一些導致404錯誤,我需要刪除的網址。我需要根據站點地圖中的網址生成報告,而不是抓取網站上由於錯誤鏈接而導致的錯誤。我看不到任何將抓取錯誤報告過濾爲僅包含這些URL的方式。有沒有人知道我可以做到這一點的方式?搜索引擎優化,谷歌網站管理員工具 - 我怎樣才能生成404網址錯誤報告的網站地圖中的壞網址?
感謝
我不知道,你可以從網站管理員工具輕鬆地做到這一點,但它是微不足道的自己去查他們。這是一個perl程序,它將接受一個站點地圖文件並檢查每一行,打印每個url及其狀態。
#!/usr/bin/perl
use strict;
require LWP::UserAgent;
my $ua = LWP::UserAgent->new;
while (my $line = <>){
if ($line =~ /\<loc\>(.*?)\<\/loc\>/){
my $url = $1;
my $response = $ua->get($url);
my $status = $response->status_line;
$status =~ s/ .*//g;
print "$status $url\n";
}
}
我將其保存爲checksitemapstatus.pl和使用它像這樣:
$ /tmp/checksitemap.pl /tmp/sitemap.xml
200 http://example.com/
404 http://example.com/notfound.html
沒有本地內WMT。你會想做一些Excel。
您也可以導入到的sitemap.xml A1網站分析儀,讓它掃描。請參閱: http://www.microsystools.com/products/website-analyzer/help/crawl-website-pages-list/
之後,您可以通過e。,g等篩選掃描結果。 404響應代碼並將其導出到CSV(如果需要)。 (包括它們被連接在那裏,如果那麼想。)
將在30天免費試用做到這一切之前,我必須購買? – TGuimond 2013-02-14 16:21:56
當然。 (除30天限制外,試用期不限。) – Tom 2013-02-16 01:02:51