我真正想要做的是弄清楚BEEMP3.COM是如何工作的。關於從互聯網抓取/抓取/收集音頻內容的最佳方式的建議/提示
由於網站的速度,我懷疑他們當場刮掉其他網站/資源。 他們可能使用某種數據庫(PostgreSQL或MySQL)來存儲「結果」,然後只是查詢搜索條件。
我的問題是你們如何認爲他們爬行/蜘蛛或實際上得到的MP3文件/內容? 他們必須有一些算法來蜘蛛互聯網或使用谷歌的MP3技巧索引找到原始MP3文件的主機。
任何意見和建議或想法是讚賞:)
我真正想要做的是弄清楚BEEMP3.COM是如何工作的。關於從互聯網抓取/抓取/收集音頻內容的最佳方式的建議/提示
由於網站的速度,我懷疑他們當場刮掉其他網站/資源。 他們可能使用某種數據庫(PostgreSQL或MySQL)來存儲「結果」,然後只是查詢搜索條件。
我的問題是你們如何認爲他們爬行/蜘蛛或實際上得到的MP3文件/內容? 他們必須有一些算法來蜘蛛互聯網或使用谷歌的MP3技巧索引找到原始MP3文件的主機。
任何意見和建議或想法是讚賞:)
的QueryPath是構建網絡蜘蛛一個偉大的工具。
我猜他們使用組合方法找到MP3 - 他們有一個「種子網站」(從谷歌,Usenet或手動插入蒐集)的列表,他們使用它作爲搜索的起點,然後設置蜘蛛運行反對他們。
你需要寫一個腳本,將:
您還需要定期重新檢查MP3鏈接以清除任何不良鏈接。
或者,您可以抓取像beemp3.com這樣的MP3蜘蛛,並提取所有直接下載鏈接並將它們保存到您的數據庫中。你只需要兩個文件 I.簡單的html Dom。 二,可以將提取的鏈接提取到數據庫的應用程序。
檢查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php
你繼續問任何矛盾的情況。