2012-08-04 43 views
0

可能重複:
Get random site names in bash獲取隨機網站的鏈接在bash

我正在做一個項目爲已找到的網頁上的文字的出現了大學。我需要制定一種算法來查找網站並計算所用單詞的數量,然後記錄它們並根據它們的使用次數進行排序。因此,我的程序檢查的大多數網站越好。首先我想計算隨機IP,但問題是這個過程需要的太多了(我離開計算機搜索整晚,只發現了15個站點)。我想這是因爲網站的IP不是均勻分佈在網絡上,大部分IP都屬於用戶或其他服務。現在我有一個新的方法在腦海中,我想知道你們的想法:

如果我通過谷歌使用某種字典進行隨機搜索會怎樣?字典從一開始就會是空的,每次執行搜索時,我都會檢查一個網站,並且只會向字典添加一次出現的單詞,這樣就不會再通過破壞發生的情況將我發送到該網站。

這很簡單嗎?

我想要做的第一件事就是在谷歌搜索中搜索隨機頁面,而不僅僅是第一個,這怎麼做?我無法弄清楚如何計算該搜索頁面,以及如何最大號碼直接轉到特定頁面

感謝

+0

您能澄清一下你的意思嗎?'我檢查一個網站,並且只添加一次發生的字詞,這樣就不會再通過破壞發生的事件將我發送到該網站'。 我不明白這是如何阻止你訪問一個網站兩次。 – WaelJ 2012-08-04 15:11:28

回答

0

雖然我不認爲你可以(或應該)做爲此在請單獨看看Google Custom Search APIthis question。它允許直接以編程方式查詢Google搜索。

至於使用什麼疑問,您可以求助於從字典文件中隨機挑選的話 - 儘管這不會給你一個均勻分佈像「貓」字「epichorial」更受歡迎,說。如果你需要考慮到這些差異,你可以使用word frequency dictionary,雖然這似乎是你自己研究的重點,所以也許這不合適。