3
我需要編寫一個搜尋器才能從少數預選網站中提取一些信息。在Google應用引擎上爲選定的網站運行網絡爬蟲?
我知道這是一個直接的工作,但我正在考慮使用谷歌應用程序引擎來完成這件事。
可能是我可以嘗試Nutch爲我做這個。
這樣完成它的可行性有多大?
1)託管谷歌基礎設施上的爬行器 2)Nutch +應用引擎 - 它可能嗎?
我需要編寫一個搜尋器才能從少數預選網站中提取一些信息。在Google應用引擎上爲選定的網站運行網絡爬蟲?
我知道這是一個直接的工作,但我正在考慮使用谷歌應用程序引擎來完成這件事。
可能是我可以嘗試Nutch爲我做這個。
這樣完成它的可行性有多大?
1)託管谷歌基礎設施上的爬行器 2)Nutch +應用引擎 - 它可能嗎?
只是掃視了nutch docs,我看到這樣的評論「[T]他完全是底層的Hadoop平臺上基於Nutch的第二次發佈」 這讓我懷疑這會不會對App Engine運行。 App Engine應用運行在Python或Java沙箱中。
也就是說,您應該可以在App Egnine上放置一個基本的抓取工具。我的基本實現可能涉及啓動tasks使用urlfetch來抓取頁面,然後,可選地,插入其他任務來處理文檔鏈接到的鏈接。您可以使用scheduled tasks來關閉抓取。
他基本上會從頭開始編寫爬蟲程序,不是嗎? – simpatico 2011-03-05 21:58:44