2010-12-15 21 views
2

我真正想要做的是弄清楚BEEMP3.COM是如何工作的。關於從互聯網抓取/抓取/收集音頻內容的最佳方式的建議/提示

由於網站的速度,我懷疑他們當場刮掉其他網站/資源。 他們可能使用某種數據庫(PostgreSQL或MySQL)來存儲「結果」,然後只是查詢搜索條件。

我的問題是你們如何認爲他們爬行/蜘蛛或實際上得到的MP3文件/內容? 他們必須有一些算法來蜘蛛互聯網或使用谷歌的MP3技巧索引找到原始MP3文件的主機。

任何意見和建議或想法是讚賞:)

回答

0

的QueryPath是構建網絡蜘蛛一個偉大的工具。

我猜他們使用組合方法找到MP3 - 他們有一個「種子網站」(從谷歌,Usenet或手動插入蒐集)的列表,他們使用它作爲搜索的起點,然後設置蜘蛛運行反對他們。

你需要寫一個腳本,將:

  • 以網頁爲起點
  • 抓取網頁數據(使用捲曲)
  • 使用正則表達式來提取(a)任何鏈接(b)中的MP3文件的鏈接
  • 地點任何MP3鏈接到數據庫
  • 通過上述方法添加的鏈接到其他網頁上的列表給隊列進行處理

您還需要定期重新檢查MP3鏈接以清除任何不良鏈接。