關於從互聯網抓取/抓取/收集音頻內容的最佳方式的建議/提示

由於網站的速度，我懷疑他們當場刮掉其他網站/資源。他們可能使用某種數據庫（PostgreSQL或MySQL）來存儲「結果」，然後只是查詢搜索條件。

我的問題是你們如何認爲他們爬行/蜘蛛或實際上得到的MP3文件/內容？他們必須有一些算法來蜘蛛互聯網或使用谷歌的MP3技巧索引找到原始MP3文件的主機。

任何意見和建議或想法是讚賞:)

2010-12-15 Boro

的QueryPath是構建網絡蜘蛛一個偉大的工具。

我猜他們使用組合方法找到MP3 - 他們有一個「種子網站」（從谷歌，Usenet或手動插入蒐集）的列表，他們使用它作爲搜索的起點，然後設置蜘蛛運行反對他們。

你需要寫一個腳本，將：

您還需要定期重新檢查MP3鏈接以清除任何不良鏈接。

2011-02-18 16:01:53 GSP

或者，您可以抓取像beemp3.com這樣的MP3蜘蛛，並提取所有直接下載鏈接並將它們保存到您的數據庫中。你只需要兩個文件 I.簡單的html Dom。二，可以將提取的鏈接提取到數據庫的應用程序。

你繼續問任何矛盾的情況。

2013-10-09 08:32:09

回答