2016-03-21 166 views
1

我有一個約從列表中的列表。 36,000個URL,範圍從​​到https://www.fff.fr/la-vie-des-clubs/36179/infos-cles(其中幾頁返回404 erros)。從分頁網站的每個頁面檢索一個數字

每個頁面都包含一個數字(足球俱樂部包含的球隊數量)。在HTML文件中,編號顯示爲<p class="number">5</p>.

是否有合理簡單的方法來編譯具有URL和關聯的團隊數作爲字段的excel或csv文件?

我試過尋找phantomJS,但我的方法花了10秒鐘打開一個網頁,我真的不想花100個小時這樣做。我無法弄清楚如何(或者是否可能)使用諸如import.io之類的抓取工具來執行此操作。

謝謝!

回答

0

對於要達到的目標,我可以看到兩個解決方案:

  • 代碼它在Java中:Jsoup +任何CSV庫

    幾分鐘後,在36000+ URL可以很容易下載。

  • scrapinghub.com

    波西婭是一個所見即所得的工具可以快速幫助您創建項目並運行它使用像Portia的工具。他們提供免費計劃,可以負責36000多個鏈接。