2009-12-11 48 views
0

親愛的,我現在用的是webtool如何檢索網頁谷歌

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

解析網頁。

例如,我們可以分析newyorktimes主頁,我們這樣做:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

在我們的瀏覽器的地址欄中

,這將很好地分析事情對我們來說。

但是,它只是失敗的谷歌網頁。 例如,如果我想分析谷歌新聞headpage,如:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我總是會得到500內部服務器錯誤。

我確定這與Google網站有些關係,我認爲我們可能需要一些針對谷歌的API,有沒有人有任何想法如何對谷歌頁面進行排序? 非常感謝。

回答

2

根據google.com robots.txt文件,明確要求您不要刮掉其內容。 Google不會爲機器可讀的搜索結果提供API;他們希望通過小部件和嵌入策略來控制其內容的表示。

+0

謝謝,Jonanthan,幫助 如何雅虎!或Bing? – Kevin 2009-12-11 04:05:56

+0

其實,Robert應該閱讀robots.txt文件。 Google的某些部分 - 明確允許進行刮擦。 – 2009-12-11 04:25:46

+0

不是搜索結果,沒有。 – 2009-12-11 04:27:08