2009-11-01 47 views
1

我正在尋找一個很好的開源bot來確定谷歌索引通常需要的一些質量。Bot Web質量

例如

  • 找到重複的標題
  • 無效鏈接(jspider做到這一點,我想得更多會這麼做)
  • 一模一樣的頁面,但不同的URL
  • 等,等等等於谷歌質量要求。
+0

這個問題真的很不具體。蜘蛛在找到重複的標題時應該做些什麼?或無效的鏈接?或完全相同的頁面?而「等等,等於谷歌質量要求。」沒有提到你的要求是什麼。你能說出你的實際需求是什麼嗎?你想用這隻蜘蛛完成什麼? – 2009-11-01 19:29:08

+0

另外,你是否想要檢查大量的網站,或只是你自己維護的網站? – 2009-11-01 19:54:29

+0

是的,我知道這就是爲什麼我認爲像scrapy這樣的框架適合beeter。 它爲我維護的網頁...但它們很多! – llazzaro 2009-11-01 22:02:36

回答

1

您的要求非常具體,所以很不可能有開源產品完全符合您的需求。

但是,有許多用於構建Web爬蟲的開源框架。你使用哪一種取決於你的語言偏好。

例如:

一般來說,這些框架將提供類它可以根據您提供的規則來抓取和抓取網站的頁面,但是您可以通過連接自己的代碼來提取所需的數據。

+0

我想了解一些我的bot,我用scrapy做了一些...我認爲這是目前最好的答案! 你知道任何已經制造的機器人嗎? – llazzaro 2009-11-01 22:03:30

0

Google Webmaster Tools是一個基於Web的服務(而不是按需BOT),並且它不會做你要求的一切 - 但它確實做了一些它,很多事情你避風港不要求,並且 - 來自谷歌 - 這無疑與您的奇怪「等相匹配,等等等於谷歌質量要求。」比其他地方更好。

+0

是的,我知道,我的問題受到網站站長工具的啓發......但我想避免這種情況。我的網頁有很多頁面,而且它們都是動態的,所以它很難找到重複的標題,我希望能夠在google上找到它! – llazzaro 2009-11-01 22:01:52