2013-02-13 71 views
1

我有一個大型網站的自動生成的網站地圖,其中包含一些導致404錯誤,我需要刪除的網址。我需要根據站點地圖中的網址生成報告,而不是抓取網站上由於錯誤鏈接而導致的錯誤。我看不到任何將抓取錯誤報告過濾爲僅包含這些URL的方式。有沒有人知道我可以做到這一點的方式?搜索引擎優化,谷歌網站管理員工具 - 我怎樣才能生成404網址錯誤報告的網站地圖中的壞網址?

感謝

回答

2

我不知道,你可以從網站管理員工具輕鬆地做到這一點,但它是微不足道的自己去查他們。這是一個perl程序,它將接受一個站點地圖文件並檢查每一行,打印每個url及其狀態。

#!/usr/bin/perl 
use strict; 
require LWP::UserAgent; 
my $ua = LWP::UserAgent->new; 
while (my $line = <>){ 
    if ($line =~ /\<loc\>(.*?)\<\/loc\>/){ 
     my $url = $1; 
     my $response = $ua->get($url); 
     my $status = $response->status_line; 
     $status =~ s/ .*//g; 
     print "$status $url\n"; 
    } 
} 

我將其保存爲checksitemapstatus.pl和使用它像這樣:

$ /tmp/checksitemap.pl /tmp/sitemap.xml 
200 http://example.com/ 
404 http://example.com/notfound.html 
2

沒有本地內WMT。你會想做一些Excel。

  1. 下載鏈接破獲
  2. 列表獲取你的站點地圖鏈接的列表。
  3. 將它們並排放置。
  4. 使用VLOOKUP匹配列(http://www.techonthenet.com/excel/formulas/vlookup.php
  5. 作爲獎勵,使用一些條件格式可以更容易地查看它們是否匹配。然後,按顏色分類。
2

您也可以導入到的sitemap.xml A1網站分析儀,讓它掃描。請參閱: http://www.microsystools.com/products/website-analyzer/help/crawl-website-pages-list/

之後,您可以通過e。,g等篩選掃描結果。 404響應代碼並將其導出到CSV(如果需要)。 (包括它們被連接在那裏,如果那麼想。)

+0

將在30天免費試用做到這一切之前,我必須購買? – TGuimond 2013-02-14 16:21:56

+0

當然。 (除30天限制外,試用期不限。) – Tom 2013-02-16 01:02:51

相關問題