2008-11-07 55 views
6

如果我有一個擁有大量線程的論壇網站,搜索引擎機器人會每次抓取整個網站嗎?假設我的網站擁有超過1,000,000個線程,每次bot抓取我的網站時都會抓取它們嗎?或者它是如何工作的?我希望我的網站被編入索引,但我不想讓這個機器人殺死我的網站!換句話說,我不希望bot每次抓取我的網站時都會一次又一次地抓取舊線程。搜索引擎機器人抓取論壇如何?

另外,以前抓取的頁面呢?每次抓取我的網站以確保它們仍然在網站上時,機器人會請求它們嗎?我問這是因爲我只鏈接到最新的線程,即有一個包含所有最新線程列表的頁面,但我沒有鏈接到較早的線程,它們必須通過URL明確請求,例如, http:// example.com/showthread.aspx?threadid=7,這會阻止bot將我的網站關閉並消耗我所有的帶寬嗎?

P.S.該網站仍在開發中,但我想知道爲了設計網站,以便搜索引擎機器人不把它關閉。

回答

8

複雜的東西。

根據我的經驗,它更多地取決於您使用什麼URL方案將頁面鏈接到一起,以確定爬網程序是否會抓​​取哪些頁面。

  • 大多數引擎抓取整個網站,如果它是所有正確超鏈接爬友好的URL例如使用URL重寫而不是topicID = 123查詢字符串,並且所有頁面都可以輕鬆鏈接到主頁面上點擊幾下。

  • 另一種情況是分頁,如果有分頁功能,有時機器人只抓取第一頁,當它發現下一頁鏈接不斷點擊同一文檔時停止。一個index.php整個網站。

  • 您不希望機器人無意中擊中某些執行某些操作的網頁,例如一個鏈接到「delete.php?topicID = 123」的「刪除主題」鏈接,因此大多數爬蟲也會檢查這些情況。

  • Tools page at SEOmoz還提供了大量關於某些爬蟲的工作方式以及它將提取和咀嚼哪些信息的信息和見解。您可以使用這些信息來確定論壇內部的頁面,例如,一個一歲的職位可能會被抓取或不會。

  • 而一些抓取工具使您可以自定義其抓取行爲......類似於Google Sitemaps。你可以告訴他們做 - 抓取和不抓取哪些頁面,以及哪些訂單等。我記得MSN和雅虎也提供這樣的服務,但從未嘗試過。

  • 您可以通過在網站根目錄中提供robots.txt文件來限制爬行機器人,以免壓倒您的網站。

基本上,如果你設計你的論壇,這樣的URL不看起來敵視抓取工具,它會愉快地抓取整個網站。

0

要建立在chakrit的說法上,一些搜索引擎(特別是Google)只會索引只有一個或兩個參數的頁面。之後,頁面通常被忽略,可能是因爲它被視爲過於動態,因此是不可靠的URL。

最好創建一個SEO友好的URL,它沒有參數,而是隱藏了Apache中的mod_rewrite或Rails中的routes之類的實現。 (例如http://domain.com/forum/post/123映射到http://domain.com/forum/post.php?id=123)。

Chakrit也提到Google Sitemaps。這些功能可確保Google掃描每次發佈並將其永久保存在其索引中。 Jeff Atwood在Stackoverflow podcast24上討論了這個問題,他解釋說Google沒有保留所有的Stackoverflow帖子,直到他們將每個帖子放入站點地圖。

0

抓取漫遊器不會一次抓取您的整個站點,而是每次訪問時抓取一些頁面。每次爬網的頻率和爬網的頁數每次都會有很大差異。

Google索引的每個頁面都會在一段時間內再次抓取,以確保沒有任何更改。

使用網站地圖確實有助於確保搜索引擎索引儘可能多的網頁。

相關問題