1
到目前爲止,我正在抓取來自不同來源的數據,作爲實時流式傳輸Twitter和Facebook API並將其存儲在單獨的數據庫中。之後,我使用這些大數據來了解用戶的行爲和其他一些分析。是否有可能爬網黑暗的網頁?
我想要做的是一樣的,但在黑暗網頁,我想抓取所有可以通過TOR瀏覽器訪問的網頁。我在幾個博客中搜索了關於這樣的事情,但是我發現他們都是隻抓取日誌文件。
像社交媒體平臺API一樣,是否可以抓取黑暗的網頁?
到目前爲止,我正在抓取來自不同來源的數據,作爲實時流式傳輸Twitter和Facebook API並將其存儲在單獨的數據庫中。之後,我使用這些大數據來了解用戶的行爲和其他一些分析。是否有可能爬網黑暗的網頁?
我想要做的是一樣的,但在黑暗網頁,我想抓取所有可以通過TOR瀏覽器訪問的網頁。我在幾個博客中搜索了關於這樣的事情,但是我發現他們都是隻抓取日誌文件。
像社交媒體平臺API一樣,是否可以抓取黑暗的網頁?
是的,這是可能的 - 我們已經做了多年。我們使用Ubuntu,所以我們對我們的抓取工具安裝Tor:
apt get install tor
和我們的Python腳本運行urllib
請求通過端口9050
,如果你不喜歡開發針對服務.onion鏈接您可以致電我們的https://webhose.io