2012-03-26 61 views
0

我的老闆給了我一份約3500家公司的名單,並且希望在明天之前爲他們每個人提供通用的聯繫電子郵件。我知道這聽起來很慢,而且這是,但我們的客戶要求它。我想採取的做法是這樣的:摘自谷歌的公司聯繫方式

  • 進行谷歌搜索的公司名稱
  • 確定公司的網站,並重定向到它
  • 通過網站鏈接步驟,尋找聯絡我們/關於我們
  • 定位和頁面

我已經在這裏和那裏做了一些蟒蛇對返回的第一個電子郵件地址,但沒有網絡或具有正則表達式的...雖然我得到的基本觀點我不我不知道我能不能o在接下來的12小時內執行此操作。

如果任何人有我怎麼會腳本任何幫助,這與Python或Ruby我會很感激......

+2

我討厭這麼說,但如果您之前沒有做過,這不是一個合理的12小時要求。 – 2012-03-26 03:14:23

+2

你真的很難*自動*在任何給定的網頁上找到'聯繫我們'頁面。如果你要走這條路線,最好查詢谷歌地圖,谷歌地圖通常會在結果中提供地址和電話信息。 – samb8s 2012-03-26 03:15:24

+0

+1 @ samb8s,試圖在頁面上找到合適的鏈接很困難,而且很可能會導致很多死衚衕或螺旋式失控,因爲沒有「聯繫我們」頁面標識的標準。 – 2012-03-26 03:32:54

回答

0

在Ruby中,你可能想看看使用Google's Custom Search API,隨着寶石Mechanize。 Ruby的URI庫或Addressable::URI gem將會很有用。此外,Ruby的Open::URI或類似CurbTyphoeus將有所幫助。

您不想刮取Google的網頁。他們有一個API用於返回可用的響應,而不會發生刮擦,如果您嘗試掃描3500次搜索,我不會感到驚訝,如果他們在完成之前禁止了您。

實際的代碼示例要做的是你想要的是文檔中的庫和寶石。

4

我會尋找一個非技術性的解決方案。你可以分出3500個名字,並將它們作爲HIT發佈到Amazon Mechanical Turk,每個支付1美分。然後,而不是編寫代碼來刮谷歌,你編寫代碼來創建點擊,讓真正的人做「刮」公司網站。

不知道這是否適合你,但這可能是我會做的。

希望有幫助!

布蘭登