0
我必須製作將從網站中提取數據的應用程序,但網站未格式化,我不知道從哪裏開始。你能告訴我任何想法如何從網站提取名稱地址等數據?數據在表格中,沒有id和東西。PHP從未格式化的網站獲取數據
我開始使用此代碼:
function get_url_contents($url){
$crl = curl_init();
$timeout = 5;
curl_setopt ($crl, CURLOPT_URL,$url);
curl_setopt ($crl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($crl, CURLOPT_CONNECTTIMEOUT, $timeout);
$ret = curl_exec($crl);
curl_close($crl);
return $ret;
}
$result = get_url_contents("***********");
$result = str_replace("<","<", $result);
$result = str_replace(">",">", $result);
echo nl2br($result);
所以我得到不錯的網站代碼,但不知道如何繼續。
代碼是這樣的:
<td>
<h4 class="normal"><strong>Základní identifikační údaje</strong></h4>
</td>
</tr>
<tr>
<td>
<div class="dkLeftLine"></div>
</td>
<td>
Name:
</td>
<td>
<b>Mo******</b>
</td>
</tr>
<tr>
<td>
<div class="dkLeftLine"></div>
</td>
<td>
VAT:
</td>
<td>
<a href="****">
(******)
</a>
</td>
</tr>
<tr>
<td>
<div class="dkLeftLine"></div>
</td>
<td>
Rodné číslo/Datum nar.:
</td>
<td>
*****/****/**.**.****
</td>
</tr>
<tr>
<td >
<div class="dkLeftLine"></div>
</td>
<td >
Bydliště:
</td>
<td>
****, ** ****** ***, *** *** **
</td>
</tr>
但網站未格式化?你什麼意思? –
它是一個簡單的文本文件嗎?你怎麼知道什麼是名字或地址?注意:最後兩行可以替換爲'$ result = str_replace(array('>','<'),array('>','<'),$ result);' –
我的意思是說沒有ID和東西的HTML網站。我不知道如何提取我想要的JUST文本。 – Slouchy