2010-11-23 65 views
1

這些網站如何收集所有數據 - questionhub,bigresource,thedesea,developerbay?抓取數據或使用API​​

這是合法的顯示框架中的數據爲bigresource嗎?

回答

0

@amazed

編輯:修正了一些拼寫問題20110310

這些網站如何收集所有數據 - questionhub,bigresource ...

這裏是什麼是一個非常普遍的草圖可能發生在網站的後臺像questionhub.com

  1. 蜘蛛程序(谷歌「蜘蛛程序」瞭解更多)

    a。配置爲開始閱讀網頁stackoverflow.com(例如)

    b。運行程序,以便它進入到stackoverflow.com的主頁,並開始訪問它在這些頁面上找到的所有鏈接。

    c。從所有這些網頁

  2. 搜索索引程序

    讀取由蜘蛛返回的HTML數據和返回的HTML數據創建存儲,它發現什麼網址,其中在

  3. 發現這些詞的詞搜索索引 用戶界面網頁

    提供功能豐富的用戶界面,因此您可以搜索已被蜘蛛網站。

這是合法顯示爲bigresource做幀數據?

要技術,「這一切都取決於」 ;-)

通常情況下,網站是在谷歌可見的,那麼爲什麼不其他搜索引擎了。

就像谷歌顯示了當網站被震垮, questionhub.com(或其他人)被發現文本的一部分已經選擇表現出更多的原始頁上的文字, 可能保持,這是格式化在原始HTML或更改格式爲 適合他們的標準視覺樣式。

遠程站點可以通過在名爲robots.txt的衆所周知的文件中添加規則來'請求'spyders不通過其某些/所有網頁 。蜘蛛沒有 必須遵守robots.txt,但一個警惕的網站將跟蹤不尊重他們的robots.txt文件的間諜的IP地址 ,然後阻止該IP地址 查看他們的網站上的任何東西。你可以在這裏找到大量關於robots.txt的信息,或者通過在google上運行查詢。

有幾個行業(除谷歌之外)建立關於你問什麼。搜索引擎中存在堆棧溢出標籤,搜索;閱讀一些問題/答案。 Lucene/Solr是開源搜索引擎組件。有一個同伴的開源蜘蛛,但是現在這個名字讓我無法迴避。祝你好運。

我希望這會有所幫助。

P.S.因爲你似乎是一個新用戶,如果你得到一個可以幫助你的答案,請記住將它標記爲已接受,或者給它一個+(或 - )作爲有用的答案。這也適用於你的其他帖子;-)

+0

非常有幫助,但無法找到+(或 - ) – amazed 2011-03-10 12:35:13