我正在研究一些PHP代碼,它將從遠程廣播頁面抓取音樂播放列表 - 這意味着它不斷更新。 我想在我的數據庫中存儲曲目歷史記錄。網頁抓取:如何檢測列表中的新項目?
我的問題是,我需要檢測時,新條目已被添加到遠程曲目列表,因爲他們知道:
- 我不知道多久遠程頁面將被更新
- 我不不知道遠程頁面上顯示了多少曲目。有時它會是一條單曲,有時候會是幾十條。
- 同一曲目可能會出現好幾次。
例如,抓住頁面,第一次時,我會得到這樣的數據:
- 死組合 - 愛喜Olhar闕兒阿SóTEU
- 邁倫&Ë - 如果我給你我的愛
- 胡佛菲尼克 - Badaboum
- 阿蘭尚福爾 - BAMBOU - Pilooski/Jayvich重奏
- 威廉·奧尼伯 - 原子彈
- 柯蒂斯梅菲爾德 - 移動上了 - 擴展版
- 莫斯戴夫 - 脂肪藏寶女士
- 本站Minaj - 感覺我自己
- 披露 - 你&我(水槽混音)
- 奧蒂斯雷丁 - 我的女孩 - 修復單
然後在第二次我會得到:
- 查爾斯阿森納沃爾 - Emmenez MOI
- 莫斯戴夫 - 脂肪藏寶女士
- Rag'n'Bone人 - 人
- 伯納德·拉維利爾斯 - IDEES noires
- 朱利安克萊爾 - 馬偏好
- 滾石樂隊 - 只是你的傻瓜
- Dead Combo - Esse Olhar Que EraSóTeu
- 邁倫&Ë - 如果我給你我的愛
- 胡佛菲尼克 - Badaboum
- 阿蘭尚福爾 - BAMBOU - Pilooski/Jayvich重奏
正如你所看到的,第二次,我得到了條目7 - > 10似乎與第一次相同(所以參賽作品1-> 6是新作品);第2首曲目已經在第一個列表中播放過了,但似乎已經重播了。
這裏的新條目將是:
- 查爾斯阿森納沃爾 - 帶我
- 莫斯戴夫 - 脂肪藏寶女士
- Rag'n'Bone人 - 人
- Lavilliers - 思想黑
- 朱利安克萊爾 - 我的選擇
- 滾石樂隊 - 只需喲烏爾傻瓜
我存儲在表中的軌道入口,並在另一個軌道的歷史。表
結構跟蹤表的
| ID | artist | title | album |
--------------------------------------------------
| 12 | Mos Def | Ms. Fat Booty | |
結構跟蹤歷史
| ID | track ID | time |
------------------------------------------
| 24 | 12 | 2016-07-03 13:40:26 |
你有我能怎麼我們處理任何想法?
謝謝!
@Veve:我不明白這一點...什麼ü意味着什麼呢? – gordie