2011-02-15 186 views
1

我需要開發一個系統,通過遠程服務器(我相信「代理」是該術語)定期登錄網站,並從該網站收集數據。通過代理登錄到網站

對於這樣的系統,在服務器和軟件方面,基本要求是什麼?我需要的不僅僅是一個典型的共享託管計劃嗎?

我正在尋找基於PHP的軟件解決方案。

編輯:收集的數據將僅用於統計目的 - 沒有任何違法。

+1

首先,您需要遠程站點的許可。 – 2011-02-15 07:53:56

+0

@Dagon,你的意思是將被抓取的網站或遠程服務器? – 2011-02-15 07:56:38

+0

通過「登錄到網站」您的意思是用用戶名和密碼登錄?或只是要求任何/所有頁面檢查他們的佈局? – 2011-02-15 07:57:12

回答

1

您可以使用PHP curl函數來請求頁面。
和捲曲允許您設置像這樣的代理:

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_PROXY, "http://proxyaddress"); 
curl_setopt($ch, CURLOPT_PROXYPORT, 8080); 
curl_setopt($ch, CURLOPT_PROXYUSERPWD, "xxx:xxx"); 

我猜對了downvotes的原因是,它好像你正在偷一個設計,但我猜你有一個完全合法的理由爲了做你想做的事情!

0

你要做的是創建一個網絡爬蟲。這就是搜索引擎如何索引他們搜索的網頁。這種爬行是由稱爲蜘蛛或機器人的腳本完成的。它可以使用Perl輕鬆創建。查看這個http://www.linuxjournal.com/article/2200一個簡單的教程。