2010-04-13 94 views
0

有沒有人知道關於谷歌的網絡爬蟲(又名GoogleBot)的更多細節?我很好奇它寫的是什麼(我自己做了幾個爬蟲,並且準備做另一個爬蟲),如果它分析圖像等。我假設它在某處沿線,b/c images.google.com中的圖像全部調整大小。它也不會讓我感到驚訝,如果它全部是用Python編寫的,並且它們對所有的東西都使用了所有的庫,包括html/image/pdf解析。也許他們不會。也許它都是用C/C++編寫的。提前致謝-Google Bot信息?

+2

它有什麼不同? – jalf 2010-04-14 10:57:18

回答

0

谷歌正式允許的語言,我認爲是Python/C++/Java。

該機器人可能使用全部3個不同的任務。

1

爬行程序很可能是用C或C++編寫的,至少backrub的爬行程序是用其中的一種編寫的。

請注意,抓取工具只抓取頁面的快照,然後將其存儲在臨時數據庫中供以後處理。索引和其他附加算法將提取數據,例如圖像引用。