2010-10-25 25 views
0

copyscape如何使用google API? ajax api僅適用於啓用了JavaScript的瀏覽器,因此不使用此api。沒有使用SOAP api,因爲它不允許用於商業用途,每天不允許有超過100個查詢。copyscape如何使用google API

回答

2

Copyscape不使用Google API代替它使用Google搜索它做了一個簡單的捲曲請求到http://www.google.com/search?q=Search這裏的關鍵字。然後使用正則表達式模式來查找標題,描述和鏈接並顯示給用戶。但這嚴格違反了谷歌的服務條款,也可以讓他們禁止,因此他們使用代理(或任何其他ip隱藏方法)隱藏他們的ip爲每個搜索

0

從他們的常見問題,他們已經解釋了他們如何做。


哪裏Copyscape得到它的結果嗎?

Copyscape使用Google和Yahoo!作爲搜索提供商,根據商定的 條款。這些搜索提供商將標準搜索結果發送到 Copyscape,無需任何後期處理。 Copyscape使用複雜的 專有算法來修改這些搜索結果,以便 提供剽竊檢查服務。任何費用爲 Copyscape的增值服務,不提供搜索服務 搜索結果。

http://www.copyscape.com/faqs.php#providers


分析

CopyScape使我們100%相信谷歌和雅虎有特殊協議。我80%確定CopyScape正在使用搜索引擎提供的Google Enterprise Search類似的搜索解決方案(可能未公開但相似)。

CopyScape不會執行刮取的結果,而是獲取基於API的格式,如json和xml。對於提供商(谷歌和雅虎)來說,這對帶寬和響應時間的改善非常有利。我想出了這部分,因爲我以前嘗試通過短語搜索(「短語匹配」)通過python來搜索google搜索結果。您的抓取機器人不能也不知道繞過503的方式,谷歌將在幾百個結果(100個搜索間隔或50個搜索間隔)後做出響應。

他們顯然沒有做一些瀏覽器自動化,然後在web驅動程序和python等編程語言之間獲取數據。我試過這樣做,它給出了類似的結果,除了自動搜索器將需要一些手動干預驗證碼,然後讓你繼續刮。我也嘗試使用一些最新的旁路,它只需幾分鐘/秒即可修補。當然,他們沒有做任何自動搜刮引擎,如果他們這樣做。它不會長期工作。

他們如何使用自己的特權?

由於他們已經付清/有特殊條款,他們現在可以從特殊的API自動化。他們要麼使用谷歌搜索企業&雅虎搜索營銷企業或他們有更特別的解決方案。

不使用列表

  • 定期/免費的API(不知道谷歌和雅虎做它免費爲他們)
  • 鏟運機(Scrapy,美麗的湯,硒等)

使用列表

  • 企業級API
  • 服務器Bash腳本/ Python腳本/ Ruby腳本/用於可伸縮性等的PHP腳本。

希望能

我希望從CopyScape有人可能會泄漏信息,讓人們不會猜測和CopyScape應該有更多的競爭,因爲有這非常可靠,認爲僅僅是一些抄襲跳棋在那裏(可能只有1-10個)。