抓取數據或使用API

這些網站如何收集所有數據 - questionhub，bigresource，thedesea，developerbay？抓取數據或使用API

這是合法的顯示框架中的數據爲bigresource嗎？

來源

2010-11-23 amazed

@amazed

編輯：修正了一些拼寫問題20110310

這些網站如何收集所有數據 - questionhub，bigresource ...

這裏是什麼是一個非常普遍的草圖可能發生在網站的後臺像questionhub.com

蜘蛛程序（谷歌「蜘蛛程序」瞭解更多）

a。配置爲開始閱讀網頁stackoverflow.com（例如）

b。運行程序，以便它進入到stackoverflow.com的主頁，並開始訪問它在這些頁面上找到的所有鏈接。

c。從所有這些網頁
搜索索引程序

讀取由蜘蛛返回的HTML數據和返回的HTML數據創建存儲，它發現什麼網址，其中在
發現這些詞的詞搜索索引用戶界面網頁

提供功能豐富的用戶界面，因此您可以搜索已被蜘蛛網站。

這是合法顯示爲bigresource做幀數據？

要技術，「這一切都取決於」 ;-)

通常情況下，網站想是在谷歌可見的，那麼爲什麼不其他搜索引擎了。

就像谷歌顯示了當網站被震垮， questionhub.com（或其他人）被發現文本的一部分已經選擇表現出更多的原始頁上的文字，可能保持，這是格式化在原始HTML或更改格式爲適合他們的標準視覺樣式。

遠程站點可以通過在名爲robots.txt的衆所周知的文件中添加規則來'請求'spyders不通過其某些/所有網頁。蜘蛛沒有必須遵守robots.txt，但一個警惕的網站將跟蹤不尊重他們的robots.txt文件的間諜的IP地址，然後阻止該IP地址查看他們的網站上的任何東西。你可以在這裏找到大量關於robots.txt的信息，或者通過在google上運行查詢。

有幾個行業（除谷歌之外）建立關於你問什麼。搜索引擎中存在堆棧溢出標籤，搜索;閱讀一些問題/答案。 Lucene/Solr是開源搜索引擎組件。有一個同伴的開源蜘蛛，但是現在這個名字讓我無法迴避。祝你好運。

我希望這會有所幫助。

P.S.因爲你似乎是一個新用戶，如果你得到一個可以幫助你的答案，請記住將它標記爲已接受，或者給它一個+（或 - ）作爲有用的答案。這也適用於你的其他帖子;-)

來源

2011-03-07 04:52:11 shellter

非常有幫助，但無法找到+（或 - ） – amazed 2011-03-10 12:35:13

抓取數據或使用API​​

回答

相關問題

抓取數據或使用API