2014-09-23 104 views
1

我想提取足球的一些統計數據,並且遇到了soccerway。在Matlab中從iframe中提取數字

的問題是,存在一個iframe

示例URL一些統計: http://pt.soccerway.com/matches/2014/09/20/spain/primera-division/club-atletico-de-madrid/real-club-celta-de-vigo/1821403/?ICID=PL_MS_04

區域的HTML代碼resuting是:

<h2>General Game Stats Chart</h2> 


<div class="content "> 
    <div class="block_match_stats_plus_chart real-content clearfix " id="page_match_1_block_match_stats_plus_chart_10"> 

    <iframe src="./Almería vs. Villarreal - 19 Agosto 2013 - Soccerway_files/saved_resource.html" style="width: 550px; height: 300px; overflow-y: hidden;" frameborder="no" allowtransparency="true" scrolling="no"> </iframe> 
    </div> 
</div> 

的部分對應我想要的是:enter image description here

我要的只是數字。有什麼建議來解決這個問題?

我的想法是將其保存爲圖片,然後使用this從文件交換,但我不知道如何將它保存爲圖片。

回答

1

如果你打開你的問題的URL的HTML代碼,你會看到由以下部分產生的身影:

<iframe src='/charts/statsplus/1821403/' style='width: 550px; height: 300px; overflow-y: hidden;' frameborder='no' allowtransparency="true" scrolling="no"> </iframe>

因此,所有你需要做的就是保存該文件,使用完整的URL:

http://pt.soccerway.com/charts/statsplus/1821403/

獲取的文件是HTML,而不是圖像文件。因此您可以直接提取數字(不需要光學字符識別)。只需保存如下

urlwrite('http://pt.soccerway.com/charts/statsplus/1821403/','file.html') 

然後你可以解析獲得的file.html得到的數字。例如,對於詩章的數字(角球)都在這一部分:

<tr> <td class='legend left value'>6</td> <td colspan='4' class='legend title'>Cantos</td> <td class='legend right value'>3</td> </tr>

正如你所看到的,'legend left value'包含6個(相當於留隊數,馬德里競技)和'legend right value'包含3個(右隊,塞爾塔德維戈):

+0

歡迎您,並祝您的足球統計! – 2014-09-23 13:39:24