我們使用的Html敏捷包湊了基於HTML的網站的數據;有沒有像Html Agility Pack這樣的DLL來刮取基於Flash的網站?如何刮基於Flash的網站?
回答
如何捕捉整個頁面的圖像和網頁上運行的OCR讀取數據
你不會有與HTML敏捷性包多少運氣。一種方法是使用類似於FiddlerCore的代理來向/從Flash站點代理HTTP請求。您將啓動FiddlerCore代理,然後使用類似於C#WebBrowser的內容來轉到您想要搜索的URL。在頁面加載時,所有這些HTTP請求都會被代理,您可以檢查它們的內容。但是,由於在Flash中通常是靜態的,因此不會獲得大多數文本。相反,你會得到通常單獨存儲的大部分較大的內容(視頻,音頻和圖像)。與更傳統的抓取/抓取相比,這將會放慢,因爲您實際上必須在瀏覽器中執行/運行頁面。
如果你熟悉所有的YouTube下載類型擴展名的,他們在這同樣的原理工作,除了它們攔截,直接從Firefox的HTTP請求(例如),而不是一個單獨的代理。
我相信Google和一些大的搜索引擎與Adobe/Flash有特殊的安排,並且提供了一些軟件,可以讓他們的搜索引擎抓取工具看到更多的Google依賴的文本和東西。 PDF內容也一樣。我不知道這個軟件是否公開。
這真的取決於你試圖放棄在網站上。有兩種類型的在這方面的網站:
如果網站有swf文件裏面的數據,那麼你就必須要反編譯的swf文件,並讀取裏面的數據。有了足夠的工作,你可以通過編程來完成。但是,如果是這種情況,手動收集數據可能會更容易,因爲它可能不會有太大變化。
但如果大多數情況下,特別是與有大量的數據的網站,Flash文件實際上是聯繫外部API。在這種情況下,您可以完全忽略閃存並直接訪問API。如果你不確定,只需激活Firebug的網絡面板,然後開始瀏覽。如果它使用外部API,它應該變得明顯。
一旦找到了API,你很可能逆向工程如何操縱它來給你所需要的任何數據。
還要注意的是,如果它是一個足夠大的場地,也有可能非閃光方式來獲得相同的數據:
- 它可能有一個移動網站(無閃光燈) - 嘗試用iPhone用戶代理訪問該網站。
- 它可能有一個用於抓取工具的網站(如googlebot) - 請嘗試使用googlebot用戶代理訪問該網站。
編輯: 如果你在談論爬行(爬手段從任何隨機的網站獲取數據)而不是刮(從特定網站獲取結構化的數據),那麼有沒有什麼可以做,甚至Googlebot沒有報廢Flash內容。主要是因爲不像HTML,Flash沒有標準化的語法,你可以立即告訴什麼是文本,什麼是鏈接等......
- 1. 刮Flash網站
- 2. 網頁搜刮基於javascript的網站
- 3. 指南如何啓動基於模板的Flash網站?
- 4. 基於網站在Magento如何獲得基於網站在Magento
- 5. 網站在網站刮嘗試用flash插件
- 6. 如何刮掉.jsp網站?
- 7. 如何刮AJAX網站?
- 8. 刮網站
- 9. 網站刮圖
- 10. 刮javascript網站
- 11. 的Youtube網站刮
- 12. 關於刮JavaScript重網站的建議
- 13. 關於刮評論網站的問題
- 14. 如何複製基於PHP的網站?
- 15. 如何測試基於Ajax的網站?
- 16. 基於JavaScript的網站如何不同?
- 17. 基於PHP的網頁刮板
- 18. 如何實現網站的cookies刮板?
- 19. 如何將基於時間軸的Flash網站添加到基於時間軸的Flash網站的外部文檔類
- 20. 將Jaunt的網站刮板能夠刮這個JavaScript網站
- 21. 如何從刮我的網站停止網站
- 22. 調整大小從Firefox作爲基於Flash的網站與IE
- 23. 刮一個網站
- 24. 刮動態網站
- 25. [R刮ASPX網站
- 26. 刮壞HTML網站
- 27. 如何爲網站刮取信息?
- 28. 如何從網站上刮取圖片?
- 29. 如何從網站上刮取徽標?
- 30. 如何從本網站刮取數據?
據我所知,Flash網站是無法破解的。 – That1Guy