2015-04-05 140 views
-1

隊友我需要知道什麼是最好的編程技術是最好的動態網站,如谷歌搜索,bing搜索,社交媒體網站等網站刮等希望你明白我的觀點。技術爲網絡抓取需要?

想要的東西是高度可擴展性和低資源接受者也。

還浪費大多數開發者社區?

現代語言與DATABASE的最佳組合也是我在想MYSQL InnoDB?因爲我們需要存儲刮取的數據並呈現。

原因我們一直在使用PHP與MYSQL,這是在報廢緩慢工作。

請讓我知道,謝謝。

問候

+0

如果您要複製Google等,您至少需要100K臺機器。如果你正在刮,股票報價,那麼尋找一個API--它將比解析網頁更快更高效。請詳細說明你的目標。 – 2015-04-05 21:59:57

+0

不想重複谷歌讓我們說刮掉搜索引擎排名數據等具體關鍵字,網址等得到我的觀點? – 2015-04-05 22:12:55

回答

0

查找的特定刮你想要的(如排名關鍵字)的API。

然後使用適當的語言來解碼API給你的東西。如果它給你JSON或CSV,那麼Perl和PHP非常好。使用編程語言來處理數據,然後構建批量INSERT或CSV文件(對於LOAD DATA)並將其插入InnoDB表中。

如果你找不到合適的API,但你可以找到合適的網頁,那麼Perl可能是解析的最佳選擇。在CPAN查找合適的圖書館以幫助您;會有幾個(比別人好一些)。

+0

嗯有沒有其他的替代perl? NodeJs怎麼樣? – 2015-04-05 22:37:39