2015-07-20 37 views
2

我使用import.io並試圖創建一個基於此頁面上的履帶: http://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0爲什麼「我有我需要的」按鈕有時在import.io中不起作用?

選擇單行(每頁一行),並增加了一些列和訓練他們之後,我要點擊按鈕「我有我需要的!」以繼續並訓練另一個類似的頁面。但是無法點擊按鈕,就好像程序正在等待我訓練更多(即使沒有必要)(我已經在其他網站上成功完成了此過程,但出於某種原因,此頁不起作用)。

任何想法,爲什麼這是行不通的?

請參閱import.io的下面的截圖,當我試圖點擊該按鈕沒有成功: http://puu.sh/j5Vlm/fcc322549a.png

UPDATE:得到了來自import.io Facebook小組的回覆。由於robots.txt的原因,構建抓取工具可能不起作用。但建立一個提取器似乎工作,只需找到一個簡單的方法來收集提取器中使用的所有鏈接。

回答

4

您試圖抓取的網站可能受到robots.txt文件的保護,因此Facebook小組告訴您我建議您嘗試使用Extractor。

該解決方案有點棘手,但它應該工作。

  1. 創建一個提取器來獲取您需要的數據從the page you want data from。我做到了,它工作。

  2. 創建提取得到的鏈接:(我的是這裏:5ef25069-f0cc-4ac7-9184-b2a035277403)爲this page

  3. 然後下載數據集作爲CSV,用電子表格中打開它,並添加這串文字在鏈接的末尾:#match-statistics;0

  4. 最後複製鏈接列表並返回到import.io。在第一個API上選擇功能批量提取並粘貼URL列表。

它應該工作;)

+0

很好的回答。我很好奇,什麼是ID爲'5ef25069-f0cc-4ac7-9184-b2a035277403'的?它是如何使用的? – kdbanman

+1

這是我的提取器的id,你可以在url的末尾看到它 –

+0

感謝您的迴應!我試圖用[此URL]使用提取器(https://api.import.io/store/data/5ef25069-f0cc-4ac7-9184-b2a035277403/_query?input/webpage/url=http%3A%2F% 2Fwww.flashscore.com%2Ftennis%2Fwta單打%2Fwimbledon%2Fresults%2F)。它使用你的提取器ID和你提到的flashscore url,但它似乎不起作用。你能幫我嗎? – kdbanman

相關問題