2014-05-05 96 views
0

我的想法是, 創建一個網站從其他渠道彙總其內容,並在頁面中顯示出來,提前PHP爬蟲,網站與後端

說, 我有10,15網站與娛樂交易名單新聞 我要抓取的網站,然後將數據保存到數據庫,輸出的內容按日期/時間排序的網頁上, 必須爬行標題,全部內容或10,15行,圖像,然後鏈接到原始來源。 該網站必須每5,10分鐘更新一次。 在每次更新中,檢查新文章,並在帶有無限滾動的網頁中顯示標題,文本,圖像,原始源鏈接。 以及我的經驗是用PHP。 任何PHP框架,服務,類開始? 任何幫助將不勝感激。

感謝

回答

0

相反爬行的頁面和屏幕抓取的,你能收集通過消耗RSS從網站訂閱相同的信息?如果可能的話,你應該避免屏幕抓取。

如果你必須刮,嘗試使用DOM解析器,而不是一個正則表達式。
http://simplehtmldom.sourceforge.net/

+0

我試過RSS聚合。 問題是10出15 RSS訂閱沒有圖像,我需要解析帖子的圖像,標題,說明 –

+0

任何幫助,使我的目標? @rmcfrazier –

+0

我已經更新了我的答案,包括一個DOM解析器,而不是使用正則表達式來從網頁收集數據。 – rmcfrazier