我最近被指控犯了一個讓我頭痛的任務。我的俱樂部希望通過網站找到正在做我們自己的人。如何解析/抓取/抓取特定信息的網站?
當前使用的方法是進入維基百科,獲取每個城市的列表(例如:List of cities in alabama),進入每個網站(例如:meetup,facebook,craigslist等),然後執行搜索關鍵字,在每個城市,爲每個網站。 (例如:功夫,武術等)
所以460個城市X 5個網站X 5個關鍵詞= 11500個不同的搜索=頭腦麻木單調。
我真的希望有一個更簡單的方法。在尋找答案時,我遇到了這個網站(building a web spider),並認爲這可能是一種方式。
問題是:我可以修改一些網頁蜘蛛(在該網站或任何其他)做搜索,並只返回結果返回true的關鍵字?我不在乎它是一個bash腳本,Python,紅寶石或任何其他語言。
讓我知道,如果有任何不清楚,並抱歉,如果它有點冗長。
難道你不能只用谷歌? – 2011-04-08 04:17:45
我不熟悉這個「谷歌」你說... 大聲笑在所有認真的谷歌搜索沒有找到我需要的所有東西,即使它做了相同的搜索11500次到達我的目的地的過程。同時我也希望爲這次考驗學到一些東西,這就是爲什麼我希望找到某種代碼。 – Guy0203 2011-04-08 04:33:45
也許scrapy可能有用嗎? http://scrapy.org/ – juanchopanza 2011-04-08 06:40:16