2008-12-04 62 views
7

Jeff在本週的Stackoverflow播客中提到,他在2004年寫了一個腳本,用110,000個英文單詞查詢Google,並收集包含每個單詞的點擊次數的數據庫。他們在Stackoverflow上使用它,例如爲每個問題頁面右側的「相關」列表。谷歌詞頻免費數據庫?

由於使用類似的腳本創建其中的一個將會很困難(正如Joel提到的,「以30,000個單詞在門上敲門」),我想知道是否有人知道更新的,免費的谷歌詞頻數據庫(例如,自那時起確實已經改變的IT詞彙,如jquery,ruby,azure等)。

+0

相關播客的鏈接會很有趣。 – hippietrail 2013-03-18 02:20:18

回答

4

快速谷歌搜索(!)出現幾個點擊。這link看起來很有希望:

但它不是針對IT的話。

0

您可以在您的朋友/同事之間劃分一個列表,並使用足夠大的超時時間,以便每個IP每天不超過50,000個請求,然後合併結果。我不確定這種方法的合法性,但使用這種方法讓谷歌人「敲門」的可能性非常低。

注意:根據Skuta

1

提供據谷歌,你可能每一個IP每天發送50000個查詢的數據進行編輯。我真的認爲這是不合法的分裂你的朋友之間..

我有類似的問題,每天每IP查詢,但我們通過完全不同的方法解決它。

+0

你介意分享這種「不同」的方法嗎? – 2008-12-18 15:16:47

2

它可能遲到回答這個問題,但我可以建議你不同的方式。 而不是從Google獲得「點擊次數」來自己計算一些近似值。獲取大量文本頁面(語料庫)並計算每個單詞的數量。 我已經用維基百科完成了這項工作。有所有wiki頁面的轉儲。你只需要編寫一個解析器來提取文本和計算單詞。結果是一個超過110K字的列表(至少2M-3M)。 如果您確實需要Google搜索結果中的數字,您可以獲取一些單詞樣本並查詢Google,然後對計算值進行一些歸一化處理以匹配Google的值。 我希望這可以幫助。