問題是如何獲取ajax調用源代碼?這不會被抓取,例如如何抓取像這樣的鏈接上的圖片? http://www.tiendeo.nl/Catalogi/amsterdam/16558&subori=web_sliders&buscar=Boni&sw=1366php中的圖片爬行器
如果你檢查元素,那麼它會告訴你正確的代碼在圖片的中間。但如何抓取這個?如果你點擊下一頁,那麼它將在源文件中有其他圖像。如何獲得所有圖像的來源?
問題是如何獲取ajax調用源代碼?這不會被抓取,例如如何抓取像這樣的鏈接上的圖片? http://www.tiendeo.nl/Catalogi/amsterdam/16558&subori=web_sliders&buscar=Boni&sw=1366php中的圖片爬行器
如果你檢查元素,那麼它會告訴你正確的代碼在圖片的中間。但如何抓取這個?如果你點擊下一頁,那麼它將在源文件中有其他圖像。如何獲得所有圖像的來源?
如果我正確理解您的問題(如何抓取通過ajax調用加載到頁面中的信息?),答案是您要麼需要某種JavaScript感知的抓取工具,要麼需要檢查javascript瞭解正在調查哪些資源以加載您感興趣的內容。從PHP中,您應該能夠向這些URL發送curl get請求,並接收該站點的javascript用於呈現條目的相同響應。
後一個選項有一些回報 - 也就是說,您很可能能夠獲得對您的請求的簡單易用的JSON響應。
與大多數網絡抓取工作一樣,有些內容提供商傾向於這樣的情況,即某些內容提供商不會欣賞您對他們的數據的興趣(特別是如果您以過度壓縮其系統或資源的方式收集數據。 )請記住,如果他們注意到/介意,他們會採取措施(技術或法律)來阻止您。
附錄: 如果你希望抓取各種類似的網站沒有需要翻閱源地找到他們所使用的資源,(假設爲參數的緣故,你」只是試圖從銷售相同類型的項目的幾個網站以天真的方式刮擦一定尺寸的所有圖像),您需要以前的選項 - 某種JavaScript感知的刮板。我不知道這樣的事情是否存在,但它不會讓我感到驚訝。