2010-06-01 59 views

回答

1

您可以使用php的file函數來獲取數據。您只需將它傳遞給一個URL,然後將該內容作爲文件中的一行行返回。您還可以使用file_get_contents將內容作爲一個大字符串來獲取。

+0

無論是那些處理重定向,網絡延遲或錯誤。在獲取遠程內容時應該使用curl。 – 2010-06-02 02:05:34

1

約一旁刮其他網站的數據倫理問題:

用PHP,你可以在網站上做了一個「開放」的呼籲,只要你設置corectly。看到這個頁面的更多細節和示例:http://www.php.net/manual/en/wrappers.http.php

從那裏你有網頁的內容,這是一個分手的問題。關於我的頭,我會使用正則表達式或HTML解析器來分解HTML,然後遍歷子元素並將數據解析到數據庫調用中以保存數據。

在網絡上解析HTML有很多資源,它只是選擇最適合你的一個問題。

請記住,您需要監視網站的變化,因爲如果他們更改元素或他們的類/標識符,您可能還需要更改您的分析結構。

+0

至少在美國,得分被認爲是對版權主張免疫的事實。沒有任何東西阻止他複製分數。當然IANYL適用。 – Daisetsu 2010-06-01 23:29:57

+0

同意,我看到該網站也有其中的可能性,這更多的是我看到未來可能出現的問題。不是時間表。 – Mike 2010-06-01 23:35:45

1

使用curl你會得到頁面的內容,然後使用正則表達式,你會得到你想要的。

有一個簡單的方法:http://www.jonasjohn.de/lab/htmlsql.htm

+0

使用DOM解析和/或simplexml可能比正則表達式更容易解析獲取的內容。 – 2010-06-02 02:07:51

相關問題