1

我想收集某個網站的飛機票價格,用於許多日期和目的地。我可以指定URL的來源,目的地和日期,但網站使用AJAX提取數據,因此價格在網頁的響應中不可用。在這種情況下,我可以使用任何編程語言來獲取數據。從幾個AJAX頁面收集數據(使用瀏覽器插件?)

我想這個任務可以更好地完成,使用網絡瀏覽器逐一加載每個URL,讓它呈現頁面,然後我只需尋找所需的標記(使用CSS選擇器或JS,我猜)並將其保存到某個文件或日誌中,並移至下一個URL。之後我可以查看數據並找到最佳價格。

但是,我不幸找不到任何瀏覽器擴展/插件來完成這項任務(任何Linux瀏覽器都可以,Firefox和Chrome更可能)。我已經很熟悉GreaseMonkey,但這不是他設計的任務,但我想它會是一個類似的工具或以類似的方式運行。

有沒有人知道我可以使用這個任務的一些工具?其他方法也歡迎!

回答

0

我會使用cURL,檢查頁面的來源來查看帖子/獲取數據傳遞給頁面,並只是建立自己的gui來顯示數據。你可以很容易和快速地使用php curl從你自己的web服務器上運行它。

+0

我看着源代碼,它不包含我需要的數據。使用Firebug我檢查它是來自AJAX調用的JSON響應。但我無法自己執行此類調用,因爲我將被「相同域名策略」阻止。這就是爲什麼我認爲附加組件將成爲未來之路。 – user1775560

+0

@ user1775560 JSON可以通過cURL以及語言特定的json下載器來拉動。即使javascript在json請求上也沒有相同的域策略。其餘的你將不得不以各種方式提取取決於它如何設置。 – jett

+0

對不起,但我仍然無法看到cURL如何提出請求。正如我所看到的,同樣的起源是一種破壞交易的手段。作爲一個方面說明,我現在嘗試的方法是使用GreaseMonkey提取數據,並將其發送到本地Tomcat服務器,該服務器將保存傳入數據並回復GreaseMonkey加載的下一個URL。可怕的是,仍然不確定它會起作用,但是如果它確實並且儘快,那麼就這樣吧= P – user1775560