2015-03-19 52 views
0

有沒有人知道一個網絡爬蟲工具從網站收集聯繫方式?說我有一個www.website/contact ..我想拉出的地址,電話號碼等。有2個工具,我一直在看:cralwer4j開源jar和Java的Scrapy開源的Python。但是我發現使用我的場景有點困難。如何從網站收集聯繫信息?

任何建議將是偉大的。謝謝

回答

1

你可能谷歌的「simple web crawler」找到最適合你的解決方案。在網絡中有很多「純粹的Python」的網絡爬蟲。基於sceleton代碼,您可以添加數據庫包裝。我認爲最大的問題是數據庫設置和保存數據。

如果有1000000個網站可以抓取什麼?有沒有辦法抓取我的所有網站?

腳本沒有問題。只需將數百萬個地址放入一個文件(或多個文件)中,打開它以便在python或其他腳本中閱讀。然後通過它的鏈接獲取鏈接並抓取/抓取您的樂趣。結果你可能還想保存在文件(csv,json)中。

我還建議你準備好simple python crawler

+0

感謝您的回答!我想將數據保存在csv文件中。通過示例,我發現問題是我需要將抓取工具指向網站/域..如果有100萬個網站要抓取,該怎麼辦?有一種方法來抓取我的所有網站? – 2015-03-19 12:18:59

+0

@azi_santos,看我的回答更新 – 2015-03-20 07:48:50

+0

好的,謝謝你的建議! :) – 2015-03-20 09:59:00