我爲承載一個新聞網站,擁有超過7.5萬頁的在線媒體公司工作。我們目前使用Google Sitemap Generator(安裝在我們的服務器上)爲我們的網站構建動態XML站點地圖。實際上,由於我們有大量內容,因此我們使用站點地圖的站點地圖。 (谷歌只允許最多50K網址。)
問題
的站點地圖生成每12小時,並通過用戶行爲來驅動。也就是說,它解析服務器日誌文件,並查看哪些頁面被抓取得最多,並基於此創建站點地圖。
由於我們無法保證將新網頁添加到站點地圖,因此最好是將站點地圖提交爲RSS源?這樣,每當我們的編輯創建一個新的頁面(或文章)時,它就會添加到Feed中並提交給Google。這引發了將重複內容推送到谷歌的問題,因爲站點地圖和RSS提要可能包含相同的URL。谷歌會懲罰我們的重複內容?其他內容豐富或媒體網站如何通知谷歌他們正在發佈新內容?
據我所知,googlebots只索引它認爲重要且相關的網頁,但如果至少抓取了我們發佈的任何新文章,那將會很棒。
任何幫助將不勝感激。