1
我有一個約從列表中的列表。 36,000個URL,範圍從到https://www.fff.fr/la-vie-des-clubs/36179/infos-cles(其中幾頁返回404 erros)。從分頁網站的每個頁面檢索一個數字
每個頁面都包含一個數字(足球俱樂部包含的球隊數量)。在HTML文件中,編號顯示爲<p class="number">5</p>.
是否有合理簡單的方法來編譯具有URL和關聯的團隊數作爲字段的excel或csv文件?
我試過尋找phantomJS,但我的方法花了10秒鐘打開一個網頁,我真的不想花100個小時這樣做。我無法弄清楚如何(或者是否可能)使用諸如import.io之類的抓取工具來執行此操作。
謝謝!