2017-08-14 74 views
1

我是一個新手程序員,試圖編譯所有inc5000公司及其行業,地點,收入和首席執行官的Excel列表。有沒有什麼辦法可以讓我自動執行這個操作,這樣我就不必手動輸入全部5000個了?如何將網站數據抓取到Excel工作表中?

的一些問題:

-The inc5000列表僅顯示在頁面上50家公司,並滾動到下一個頁面不更改URL。我嘗試將URL轉換爲HTML,但沒有任何元數據實際顯示在HTML代碼中(我使用https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g)。

- 我需要的所有信息都在這一個滾動頁面上(https://www.inc.com/profile/loot-crate),但是當您沿着頁面前進時,每個公司的URL會發生變化。有沒有辦法從這個網站獲取數據而無需手動更改5000個URL?

我真的很陌生,我對HTML/JavaScript/Web設計幾乎一無所知 - 我只知道基本的Java。我非常感謝任何幫助或潛在的解決方案。

+0

歡迎來到Stack Overflow。請花一些時間閱讀[問題指南](https://stackoverflow.com/help/mcve)。你試過什麼了?在此發佈一些代碼,然後在該代碼中找出我們爲您提供幫助的具體問題 。 – ecain

+0

對不起,我沒有任何代碼,因爲我在問如何解決這個問題並開始。 – sherf

+0

這可能是一個更難的方法,但是你可以用Java編寫一些調用Selenium的自動化瀏覽器來獲取每個字段的值,將其寫入Excel,然後點擊下一個公司按鈕。 –

回答

2

這裏是最簡單的方法:

轉到頁,打F12,去的調試工具,選擇XHR(過濾到只有數據呼叫)「網絡」選項卡,然後滾動到的底部頁。該頁面爲每個公司查詢,您可以在調試工具中訪問。

一旦你擁有了所有的頁面,你可以將文件名列表中的所有行高亮顯示到左邊,點擊右鍵並保存到一個.har文件中。

從那裏,只需編寫一個腳本來拉出JSON,然後設置好。

enter image description here