2014-10-03 34 views
1

我在服務器上收到了很多失敗的請求,主要來自網頁抓取工具,這些網頁抓取工具遇到單引號的網址。Web爬蟲用單引號截斷URL。可能是壞的sitemap.xml?

例如:http://www.example.com/events/2013/5/5/someone's-event

和履帶結束了在瀏覽

http://www.example.com/events/2013/5/5/someone

現在我的sitemap.xml的URL項不包含原始單引號(未實體轉義);然而,所有在線網站地圖生成器實際上都會生成相同的內容 - 它們不會實體轉義單引號。另外,我已經將我的sitemap.xml提交給了在線驗證器,並且每次都會驗證它。

有一兩件事我注意到的是,這些在線生成問題:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">

,而我的sitemap.xml只包含:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">

莫非是有什麼做它?

回答

1

單引號需要在XML文檔中編碼。不幸的是,有很多殭屍爬蟲(包括一些主要的爬蟲)不使用解碼版本的URL。