2015-09-15 293 views
0

我想獲取網站上提供的所有鏈接(網頁帖子)。而且,如果有任何新帖子被添加到網站,我應該能夠獲得鏈接。我將有10個網站的列表,鏈接提取過程需要定期運行。如何從網站獲取所有網站鏈接?

有人可以幫助我如何獲得只發布鏈接和新增加的帖子鏈接。

回答

0

我會建議編寫一個php腳本(因爲你提到的是php),這個腳本定期由cron-job調用。在腳本中你可以

選項1:定義一個curl commando,它會自動獲取一個url的所有內容。 (可能會更好,如果你不得不提供一些信息與法後的網站。)

選項2:使用file_get_contents函數來獲取所有內容

比你可以用正則表達式來解析這些結果提取你感興趣的部分(例如搜索諸如<div class=".post">...</div>之類的東西)。之後,您可以將信息添加到您的數據庫,或者只是檢查信息是否已經存在。