2010-01-26 29 views
3

我在excel文件中有20000-50000個條目。一列包含該公司的名稱。理想情況下,我希望搜索該公司的名稱,並且無論是第一個結果,我都會選擇與其關聯的網址。我知道Google(我的理想選擇)提供了一個AJAX Search API。但是,每個註冊人也有1000個搜索限制。有沒有辦法在沒有使用Google的20個帳戶的情況下獲得超過20000次搜索,或者有沒有其他引擎可以使用?25000-50000條目的網頁搜索API

任何解決此問題的替代方法也是受歡迎的(即WhoIs查找)。

+0

只是想指出,如果您不知道:AJAX搜索API是獲得直接訪問Google搜索索引的唯一合法途徑。 (請參閱http://markmail.org/message/gcluw5ayuocvxfv5) – David 2010-01-26 02:18:45

+0

我瀏覽了常見問題解答和使用條款,瞭解有關多個帳戶的信息。多個帳戶似乎不被禁止。然而,ToU表示,你不能隱藏或掩蓋你的服務的身份,所以如果你有多個賬戶,他們可能很容易弄清楚 - 以防他們打擊。 – David 2010-01-26 02:19:09

回答

3

谷歌AJAX搜索沒有1000這樣的限制。雅虎搜索沒有。谷歌AJAX搜索限制你獲得64搜索結果,但沒有限制。

Google AJAX Search API - Class Reference

注: 頁是基於 搜索的類型結果的最大數量。本地搜索支持4頁 頁(或最多32頁總共 結果)和其他搜索者 (博客,書籍,圖片,新聞,專利, 視頻和網頁)支持8頁(對於 最多共有64個結果)。

+0

啊,我需要更徹底!我正在研究SOAP Search API FAQ,而不是AJAX。對於那個很抱歉。 – Brian 2010-01-26 02:49:12

1

接近於避免使用外部搜索服務...

方法1 - 把XML的信息內容到一個數據庫,並使用SQL/JDBC進行搜索。使用休眠等的變化。

方法2 - 將XML文件作爲內存數據結構作爲Java集合讀取,並以編程方式執行搜索。這將使用一些內存,具體取決於XML文件中的信息量,但您只需要弄清楚如何解析/加載XML並訪問集合。

但是,如果您解釋了您正在嘗試執行此操作的上下文,它將有所幫助。它是一個瀏覽器插件嗎? Web應用程序的客戶端?服務器端?桌面應用程序?

+0

那麼,我最好喜歡把它作爲Java的桌面應用程序的一次性運行。我可以將它作爲服務器上的PHP腳本運行,但我不想在運行時阻止該網站或任何其他內容(這將需要很長時間)。 – Brian 2010-01-26 02:56:40